Nvidia представила технологию мгновенного ответа на сложные и длинные запросы
Компания Nvidia разработала новую технологию, которая позволяет мгновенно получать ответы на вопросы, требующие обработки данных объемом с энциклопедию. Современные большие языковые модели (LLM) сталкиваются с проблемой «потери в середине»: при обработке очень длинных текстов они эффективно используют лишь 10−20% информации. Кроме того, существуют технические узкие места, связанные с пропускной способностью памяти графических процессоров.

Решением стала новая техника под названием Helix Parallelism, созданная на базе возможностей процессора Blackwell. Технология, вдохновленная структурой ДНК, разделяет задачи обработки и хранения данных, распределяя их по нескольким графическим картам. Это снижает нагрузку на память любого отдельного блока, сокращает время простоя и предотвращает перегрузку графического процессора.
Новый метод позволяет ИИ-агентам обрабатывать миллионы слов и одновременно поддерживать в 32 раза больше пользователей. В ходе симуляций с использованием модели DeepSeek-R1 (671 млрд параметров) было показано, что техника сокращает время ответа в 1,5 раза. Это значительный прорыв, который расширяет «встроенную память» LLM, позволяя им анализировать огромные объемы данных в реальном времени.
Несмотря на технологический прорыв, некоторые эксперты считают, что для большинства предприятий это «решение в поисках проблемы». Часто более эффективными оказываются системы дополненной генерации (RAG), которые находят нужные фрагменты информации, а не обрабатывают весь массив данных. Однако технология может стать незаменимой в узкоспециализированных областях, таких как юриспруденция, медицина или сферы с жесткими требованиями к формату и соответствию требованиям.
Helix Parallelism укрепляет лидерство Nvidia в области аппаратного и программного обеспечения для ИИ. Технология открывает новые возможности для создания сложных многоагентных систем, где ИИ-агенты смогут взаимодействовать с гораздо более богатым контекстом. Nvidia планирует интегрировать эту технику в свои фреймворки для систем искусственного интеллекта, поддерживающих различные отрасли.