ИИ-агенты провалили почти все задания, но угрожают офисному планктону

Искусственный интеллект всё активнее проникает в повседневную жизнь, помогая машинам имитировать человеческие действия. Однако насколько хорошо ИИ справляется с реальной работой? Чтобы это выяснить, исследователи создали фиктивную компанию, полностью укомплектованную виртуальными сотрудниками — агентами на основе различных ИИ-моделей.

Фото: PublicDomainPictures.net by Rostislav Kralik, https://creativecommons.org/publicdomain/zero/1.0/

Человекоподобный робот

В проекте приняли участие такие технологии, как Claude, GPT-4, Gemini, Amazon Q, Groq (Сверхновая), Meta Llama и Quen. Каждому агенту были поручены типичные офисные задачи: навигация по папкам, организация виртуальных туров и взаимодействие с веб-страницами. Результаты оказались далеко от идеальных — ИИ-агенты провалили более 75% заданий.

Лидером среди участников стал Claude 3.5 Sonnet, выполнивший 24% поставленных задач с итоговой оценкой 34,4%. Второе место занял Gemini 2.0 Flash с результатом выполнения 11,4% заданий. Остальные участники не смогли преодолеть даже 10%-ный рубеж.

Основные проблемы ИИ выявились в понимании контекста инструкций: агенты не всегда улавливали скрытые требования, например, в каком формате нужно сохранить файл. Также им не хватало элементарных социальных навыков — тех, которые человек использует автоматически при общении и работе.

Дополнительные трудности возникали при взаимодействии с веб-страницами, особенно при работе с всплывающими окнами и навигацией по сложным интерфейсам. Несмотря на успехи в решении отдельных задач, полноценная автономная работа остаётся для ИИ пока недостижимой целью.

Эти результаты подчеркивают: сегодня искусственный интеллект эффективен в узких сферах, но до замены человека в реальной офисной среде ему ещё очень далеко.

Темы и теги

США Работа, Карьера, Учеба

ии-агент Gemini офисный планктон % задание Claude GPT-4 Amazon Groq