ИИ-агенты провалили почти все задания, но угрожают офисному планктону
Искусственный интеллект всё активнее проникает в повседневную жизнь, помогая машинам имитировать человеческие действия. Однако насколько хорошо ИИ справляется с реальной работой? Чтобы это выяснить, исследователи создали фиктивную компанию, полностью укомплектованную виртуальными сотрудниками — агентами на основе различных ИИ-моделей.

В проекте приняли участие такие технологии, как Claude, GPT-4, Gemini, Amazon Q, Groq (Сверхновая), Meta Llama и Quen. Каждому агенту были поручены типичные офисные задачи: навигация по папкам, организация виртуальных туров и взаимодействие с веб-страницами. Результаты оказались далеко от идеальных — ИИ-агенты провалили более 75% заданий.
Лидером среди участников стал Claude 3.5 Sonnet, выполнивший 24% поставленных задач с итоговой оценкой 34,4%. Второе место занял Gemini 2.0 Flash с результатом выполнения 11,4% заданий. Остальные участники не смогли преодолеть даже 10%-ный рубеж.
Основные проблемы ИИ выявились в понимании контекста инструкций: агенты не всегда улавливали скрытые требования, например, в каком формате нужно сохранить файл. Также им не хватало элементарных социальных навыков — тех, которые человек использует автоматически при общении и работе.
Дополнительные трудности возникали при взаимодействии с веб-страницами, особенно при работе с всплывающими окнами и навигацией по сложным интерфейсам. Несмотря на успехи в решении отдельных задач, полноценная автономная работа остаётся для ИИ пока недостижимой целью.
Эти результаты подчеркивают: сегодня искусственный интеллект эффективен в узких сферах, но до замены человека в реальной офисной среде ему ещё очень далеко.