350 моделей ИИ не справились с задачей: в чём секрет человеческого восприятия
Исследование, проведенное Университетом Джона Хопкинса, выявило серьезные проблемы современных моделей искусственного интеллекта с пониманием человеческого взаимодействия, что критично для разработок автономных автомобилей и роботов-помощников.
Научная группа опубликовала результаты, свидетельствующие о том, что ИИ испытывает трудности в надежном понимании и описании социальных взаимодействий в видеороликах с динамичным сюжетом.
Ведущий автор исследования Лейла Исик объясняет, что для безопасной работы ИИ в транспорте необходимо понимать намерения пешеходов и водителей, а также предсказывать их действия. Тем не менее, исследования показали, что современные системы ИИ не способны к этому.
В ходе эксперимента участники оценивали социальные взаимодействия в трехсекундных видеороликах, в то время как более 350 моделей ИИ, включая языковые и видеомодели, пытались выполнить ту же задачу. Результаты показали, что люди единогласно согласны с оценками, тогда как искусственный интеллект почти никогда не совпадал с их восприятием. Языковые модели были ближе к человеческому пониманию, но все равно недостаточно точны, а видеомодели не смогли адекватно описать происходящее в роликах.
Основная проблема заключается в архитектуре нейронных сетей, на которых строится современный ИИ. Эти сети сосредоточены на статичных изображениях, игнорируя сложность динамических взаимодействий и контекста. Соавтор исследования Кэти Гарсия отмечает, что ИИ необходимо научиться анализировать контекст и динамику сцен, чтобы лучше справляться с задачами, связанными с социальным взаимодействием.
Выводы исследования имеют серьезные последствия для безопасности автономного транспорта и разработки ИИ в таких сферах, как образование и здравоохранение. Хотя ИИ может с высоким уровнем точности распознавать объекты на изображениях, неспособность различать простые социальные взаимодействия, такие как разговор или спор, может привести к катастрофическим последствиям в реальном мире, пишет cdr.
Уточнения
Видеоролик — видеозапись небольшой продолжительности.