Исследование показало что ИИ-агенты проваливают 70% офисных задач а многие из них вообще не ИИ
Аналитическая компания Gartner прогнозирует, что более 40% проектов агентного ИИ будут закрыты к концу 2027 года из-за растущих затрат, неясной бизнес-ценности или недостаточного контроля рисков. Это неприятная, но вполне предсказуемая статистика для сегмента, который многие технологические компании представляют как будущее автоматизации.
Еще более тревожным фактом оказалась статистика успешного выполнения задач ИИ-агентами. По данным исследователей из Университета Карнеги-Меллон (CMU) и Salesforce, успешность выполнения многоэтапных задач составляет всего 30-35%.
Многие вендоры подливают масла в огонь хайпа, занимаясь "агентным отмыванием" – ребрендингом существующих продуктов, таких как ИИ-ассистенты, роботизированная автоматизация процессов (RPA) и чатботы, без существенных агентных возможностей. По оценкам Gartner, только около 130 из тысяч вендоров агентного ИИ реальны.
Для проверки возможностей ИИ-агентов исследователи CMU разработали бенчмарк TheAgentCompany – симуляцию небольшой софтверной компании с типичными бизнес-операциями. Результаты тестирования крупнейших языковых моделей оказались неутешительными.
Лучший результат показала Gemini-2.5-Pro с успешным завершением всего 30,3% задач. Остальные модели продемонстрировали еще более низкие показатели: Claude-3.7-Sonnet (26,3%), Claude-3.5-Sonnet (24%), GPT-4o (8,6%), а некоторые модели вроде Qwen-2-72b справились лишь с 1,1% задач.
Исследователи отмечают:
Мы наблюдали различные сбои во время тестирования.
Проблемы самые разнообразные – агенты забывали отправить сообщение коллеге, не могли обрабатывать некоторые элементы интерфейса, например всплывающие окна при просмотре сайтов, а в некоторых случаях даже обманывали систему. В одном примере, когда агент не смог найти нужного человека в рабочем чате, он просто переименовал другого пользователя в имя нужного пользователя.
Исследователи из Salesforce разработали свой собственный бенчмарк CRMArena-Pro, ориентированный на задачи управления взаимоотношениями с клиентами. Их результаты показали, что даже ведущие ИИ-агенты достигают скромных показателей успеха – около 58% в сценариях с однократным взаимодействием, а производительность значительно падает до примерно 35% в многоэтапных сценариях.
Кроме того, руководителей компаний, которые думают переходить на ИИ-агентов должен "обрадовать" тот факт, что все протестированные модели демонстрируют почти нулевую осведомленность о конфиденциальности – что делает внедрение ИИ-агентов крайне рискованным в корпоративной среде.
Несмотря на все эти проблемы, Gartner все же прогнозирует, что к 2028 году около 15% ежедневных рабочих решений будут приниматься автономно ИИ-агентами, по сравнению с 0% в прошлом году. Также аналитики предполагают, что 33% корпоративных программных приложений будут включать агентный ИИ к этому времени.
Грэм Нойбиг из Института языковых технологий CMU и один из соавторов исследования, отметил:
Одна вещь, которая меня немного разочаровала, это то, что наш бенчмарк не был подхвачен крупными лабораториями. Возможно, он слишком сложен и выставляет их в невыгодном свете.
Он добавил, что ожидает улучшения возможностей агентов со временем, но считает, что даже несовершенные агенты могут быть полезны, по крайней мере в контексте программирования – частичное предложение кода можно дополнить и улучшить.
Для агентов, занимающихся более общими офисными задачами, ситуация сложнее:
Очень легко изолировать код и не допустить, чтобы он влиял на что-то за пределами песочницы. Тогда как если агент обрабатывает электронные письма на сервере корпоративной почты... он может отправить письмо не тем людям.
Похоже, пузырь ИИ-агентного хайпа почти достиг своего предела.