Nvidia дала роботам рассуждать и планировать действия

Компания Nvidia представила Cosmos Reason AI — передовую языковую модель зрения (VLM), разработанную специально для того, чтобы наделить роботов способностью мыслить, планировать и действовать в физическом мире с пониманием, подобным человеческому. Эта технология решает ключевую проблему современной робототехники: неспособность роботов справляться со сложными или неоднозначными задачами, требующими рассуждений и понимания контекста.

В отличие от других VLM, которые отлично распознают объекты, но пасуют перед сложными командами, Cosmos Reason AI использует предварительные знания, понимание физики и здравый смысл. Нейросеть разбивает сложные инструкции на более мелкие выполнимые задачи, может адаптироваться к незнакомой обстановке и принимать взвешенные решения. Самая модель относительно небольшая — она имеет 7 млрд параметров, а ее исходный код открыт для использования.

Сфера применения новой технологии огромна. Nvidia выделяет три ключевых направления: курирование и аннотация данных, планирование и рассуждение для роботов, а также видеоаналитика. Например, модель может автоматизировать разметку огромных наборов данных для обучения других ИИ, служить «мозгом» для роботов, объединяя зрение, язык и действия, или анализировать видеопотоки для выявления инсайтов.

Такие компании, как Uber, Magna и VAST Data, уже изучают применение Cosmos Reason для беспилотных автомобилей, роботов-доставщиков и систем мониторинга. Интеграция модели в платформу симуляции Omniverse и фреймворки для роботов Isaac Sim еще больше укрепляет экосистему Nvidia.

Ранее сингапурский стартап Menlo Research заявил, что разрабатывает алгоритм, который станет «мозгом» для роботов и позволит им рассуждать и автономно выполнять различные действия.