Новый помощник: ИИ научился «понимать» комнаты — как будто он там жил
Специалисты из Института искусственного интеллекта AIRI и Центра когнитивного моделирования Московского физико-технического института разработали инновационный метод, позволяющий повысить эффективность работы больших языковых моделей в контексте трёхмерного пространства.
Традиционные подходы в области анализа окружающей среды часто ограничиваются использованием двумерных изображений или исходных данных в формате облаков точек. Это существенно затрудняет способность искусственного интеллекта корректно интерпретировать взаимосвязи между объектами, такие как пространственные отношения между стулом и столом, а также их функциональные назначения.
Разработанный метод, получивший название 3DGraphLLM, интегрирует не только информацию о самих объектах, но и их пространственные и семантические взаимосвязи. Это особенно актуально для помещений с высокой плотностью предметов, таких как кухни, мастерские и офисы. Обучение модели проводилось на известных наборах данных, включающих точные трёхмерные реконструкции реальных помещений и текстовые описания объектов. В качестве языковых моделей были использованы Vicuna-v1.5 и LLAMA3, которые характеризуются высокой энергоэффективностью и подходят для применения в робототехнических системах.
По итогам тестирования 3DGraphLLM продемонстрировала значительное превосходство по точности распознавания объектов по сравнению с существующими методами, включая другие подходы, основанные на языковых моделях. Достигнуто улучшение точности более чем на 7% по сравнению с базовой конфигурацией, при этом модель отличается более высокой скоростью работы и оптимизированным использованием вычислительных ресурсов по сравнению с передовыми аналогами.
На данный момент исследовательская группа занимается интеграцией разработанного метода в реальные робототехнические системы. Основная цель заключается в обеспечении способности роботов не только воспринимать объекты, но и понимать их взаимосвязи, что позволит эффективно выполнять поставленные пользователем задачи. Данные навыки являются ключевыми для разработки сервисных и бытовых роботов нового поколения, пишет Ферра.