Топ-20 лучших научных статей об ИИ-агентах в 2024 году

  • Agentic Information Retrieval

    Иллюстрация агентского IR (Information Retrieval) в сценариях повседневного ассистента.
    Иллюстрация агентского IR (Information Retrieval) в сценариях повседневного ассистента.

    Авторы представили новую парадигму информационного поиска (IR) под названием "Agentic Information Retrieval" (Agentic IR). Целью исследования является разработка архитектуры и методов, основанных на возможностях больших языковых моделей (LLMs) и агентных систем, для расширения возможностей традиционных систем IR. 

    В исследовании представлена единая архитектура IR-агента , включающая модули памяти, мыслительных процессов и внешних инструментов, позволяющих агенту взаимодействовать с различными источниками информации и выполнять многошаговые действия.

    Исследование показывает, что Agentic IR значительно расширяет возможности традиционных систем информационного поиска в области решения более широкого спектра задач, интерактивности и автономности, а также применение в различных повседневных и бизнес-сценариях. 

    Agentic IR представляет собой значительный прорыв в области информационного поиска, предлагая более гибкую и мощную архитектуру, основанную на возможностях современных LLM и агентных систем.

  • Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond

    Исследование фокусируется на обзоре моделей мира для генерации видео, автономного вождения и автономных агентов
    Исследование фокусируется на обзоре моделей мира для генерации видео, автономного вождения и автономных агентов

    Авторы провели всесторонний обзор текущих моделей мира (world models) и оценили их роль в достижении общего искусственного интеллекта (AGI). Исследование демонстрирует, что модель Sora является значительным достижением в области генерации видео и симуляции окружающего мира. Sora способна создавать высококачественные видео продолжительностью до одной минуты, демонстрируя понимание физических законов и сложных динамических взаимодействий.

    А такие модели как GAIA-1 и DriveDreamer, показывают высокую эффективность в прогнозировании дорожных сценариев и улучшении безопасности автономных транспортных средств. Также модели мира, используемые в качестве симуляторов, значительно улучшают эффективность обучения агентов в игровых и роботизированных средах.

    Модели мира  представляют собой важный шаг вперед в развитии AGI. Однако для дальнейшего прогресса модели мира должны обладать способностью к контрфактическому рассуждению, также необходимо обеспечить более точное моделирование физических явлений и оптимизировать процессы генерации.

    Модели мира уже дают возможность ИИ «понимать» среду и предсказывать последствия действий. Это основа для развития более продвинутых AGI-систем, которым нужно ориентироваться в физическом или виртуальном пространстве. Это путь к по-настоящему умным виртуальным ассистентам и роботам. 

  • Genie: Generative Interactive Environments

    Genie способна преобразовывать промты в интерактивные, играбельные среды.
    Genie способна преобразовывать промты в интерактивные, играбельные среды.

    Авторы представили Genie — первую генеративную интерактивную среду, обученную с помощью неразмеченных интернет-видео. Целью исследования является создание модели, способной преобразовывать различные виды запросов (тексты, синтетические изображения, фотографии, эскизы) в интерактивные, управляемые действиями виртуальные миры, доступные для исследования и взаимодействия.

    В исследовании используется архитектура ST-Transformer (пространственно-временной трансформер) для обеспечения эффективной обработки видео с учетом как пространственных, так и временных зависимостей. Основные компоненты модели Genie включают видео-токенизатор, латентную модель действий (Latent Action Model, LAM) и динамическую модель. Модель обучалась на большом наборе данных из более чем 200,000 часов публично доступных видео игр 2D платформеров, а также на робототехнических видео из набора данных RT1. 

    Создание интерактивных «на лету» симуляций может радикально поменять подход к разработке игр, обучающих сред, исследовательских инструментов и симуляторов для роботов. Уже доступна Genie 2, которая позволяет создавать 3D-миры для видео и игр.

  • Agent AI: Surveying the Horizons of Multimodal Interaction

    Обзор компонентов ИИ-агента, способного воспринимать и действовать в различных доменах и приложениях, что потенциально может стать путем к AGI.
    Обзор компонентов ИИ-агента, способного воспринимать и действовать в различных доменах и приложениях, что потенциально может стать путем к AGI.

    Авторы исследовали область ИИ-агентов как перспективный путь к созданию общего ИИ (AGI). Основная цель заключается в разработке интерактивных агентов, способных воспринимать и действовать в различных физических и виртуальных средах.

    Авторы объединили LLMs и VLMs (Vision Language Models) в единую агентскую систему (Agent Transformer), способную воспринимать и действовать в различных модальностях (текст, изображение, звук, видео). Методы обучения с подкреплением (Reinforcement Learning, RL) и имитационного обучения (Imitation Learning, IL) использовались для повышения эффективности агентов в выполнении задач.

    Авторы включили стратегий оптимизации как пространственных, так и временных аспектов поведения агентов, а также внедрили механизмы непрерывного обучения и самоулучшения. Также был разработан датасет "CuisineWorld", для оценки и сравнения эффективности различных агентных систем.

    В результате были представлены примеры применения ИИ-агентов в области игр, робототехники и здравоохранения. ИИ-агенты обладают значительным потенциалом для достижения AGI. Однако существуют определённые вызовы, такие как снижение уровня галлюцинаций моделей, уменьшение предвзятости и обеспечение конфиденциальности данных.

  • The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use

    Задачи для оценки (слева) по категориям: веб-поиск, продуктивность, рабочий процесс и развлечения. "Использование компьютера из коробки" (справа) обеспечивает простую реализацию для выполнения этих задач в операционной системе пользователя.
    Задачи для оценки (слева) по категориям: веб-поиск, продуктивность, рабочий процесс и развлечения. "Использование компьютера из коробки" (справа) обеспечивает простую реализацию для выполнения этих задач в операционной системе пользователя.

    Авторы оценили возможности и ограничения новой модели Claude 3.5 Computer Use от компании Anthropic, которая представляет собой первую ИИ-модель для использования компьютера через графический интерфейс пользователя (GUI). Основная цель заключалась в проведении исследования, демонстрирующего способность модели выполнять комплексные задачи в реальных условиях, а также в предоставлении основы для дальнейших исследований в области GUI-агентов.

    Авторы разработали и организовали коллекцию тщательно продуманных задач, охватывающих различные домены и программное обеспечение, включая веб-поиск, рабочие процессы, офисную продуктивность и видеоигры.

    Представлен универсальный кроссплатформенный фреймворк для развертывания моделей GUI-автоматизации на основе API, обеспечивающий простую реализацию и тестирование.

    В результате авторы пришли к выводу, что Claude 3.5 Computer Use обладает высоким потенциалом для автоматизации сложных задач через GUI, однако существует ряд ограничений, связанных с точностью выполнения действий и самооценкой модели. 

  • WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

    WebRL - фреймворк обучения с подкреплением для саморазвивающихся веб-агентов
    WebRL - фреймворк обучения с подкреплением для саморазвивающихся веб-агентов

    Авторы разработали фреймворк WebRL для обучения высокоэффективных веб-агентов через саморазвивающийся куррикулум, который генерирует новые задачи из неудачных попыток. 

    Была создана надежная модель вознаграждения (Outcome-Supervised Reward Model, ORM) и внедрены методы, обеспечивающие стабильное улучшение производительности агентов. Фреймворк автоматически генерирует задачи различной сложности, адаптируясь к текущим возможностям модели, что способствует постепенному и устойчивому обучению.

    В результате применение WebRL к моделям Llama-3.1-8B и GLM-4-9B привело к увеличению средней успешности выполнения задач на WebArena-Lite с 4.8% до 42.4% и с 6.1% до 43% соответственно. 

    WebRL является эффективным инструментом для обучения веб-агентов на основе открытых LLM, успешно преодолевая основные вызовы, такие как недостаток обучающих задач, разреженность сигналов обратной связи и расходимость политик в онлайн-обучении. 

  • Personalization of Large Language Models: A Survey

    Персонализация больших языковых моделей: 1 - персонализация текста, 2 - использование персонализированной информации для повышения качества рекомендаций
    Персонализация больших языковых моделей: 1 - персонализация текста, 2 - использование персонализированной информации для повышения качества рекомендаций

    Авторы представили обзор методов персонализации больших языковых моделей (LLMs). Они нацелены на объединение двух основных направлений в области персонализированных LLMs: (a) генерация персонализированного текста и (b) использование LLMs для систем рекомендаций. Целью является создание единой таксономии, формализация теоретических основ персонализации и выявление ключевых различий и вызовов между этими направлениями.

    Авторы ввели три уровня персонализации: на уровне пользователя, на уровне персоны (группа пользователей с общими характеристиками) и на глобальном уровне (общие предпочтения и нормы, принятые широкой аудиторией).

    Методы персонализации на основе использования пользовательской информации включают Retrieval-Augmented Generation (RAG), промтинг, Representation Learning и обучение с подкреплением на основе обратной связи от человека (RLHF).

    Персонализированные ИИ-системы — необходимый шаг для пользовательских сервисов, образовательных платформ и рекомендаций. Но нужно учитывать риски утечки приватных данных и корректно решать проблему предвзятости моделей.

  • Evolving Agents: Interactive Simulation of Dynamic and Diverse Human Personalities

    Эволюционирующие агенты демонстрируют различное поведение, соответствующее их личностным характеристикам, и претерпевают непрерывную эволюцию личности на основе внешней информации в рамках интерактивной симуляционной среды.
    Эволюционирующие агенты демонстрируют различное поведение, соответствующее их личностным характеристикам, и претерпевают непрерывную эволюцию личности на основе внешней информации в рамках интерактивной симуляционной среды.

    Авторы представили архитектуру агентов эволюционирующих агентов (Evolving Agents), способную симулировать динамичную и разнообразную человеческую личность в интерактивных симуляционных средах. Целью является создание агентов, чьи личностные характеристики и поведенческие паттерны эволюционируют со временем через взаимодействие с окружающей средой и другими агентами.

    Архитектура эволюционирующих агентов состоит из двух основных систем:

    1. Система Личности (Personality): Включает модули Когниции (Cognition), Эмоций (Emotion) и Рост Характера (Character Growth), отвечающие за когнитивную обработку информации, эмоциональные реакции и развитие характера агента.

    2. Система Поведения (Behavior): Состоит из модулей Планирования (Planning) и Действий (Action), отвечающих за разработку и выполнение конкретных действий агента.

    В результате агентам удалось продемонстрировать реалистичную эволюцию личностных черт и поведенческих паттернов после нескольких дней симуляции. Личностные черты агентов отражались в их поведении, и изменения в личностных

  • More Agents Is All You Need

    "Agent Forest" — это двухфазный процесс, в котором несколько агентов на основе больших языковых моделей (LLM) используются для выполнения задачи с целью повышения качества и точности ответов.
    "Agent Forest" — это двухфазный процесс, в котором несколько агентов на основе больших языковых моделей (LLM) используются для выполнения задачи с целью повышения качества и точности ответов.

    Авторы разработали метод Agent Forest и продемонстрировали, что увеличение числа агентов приводит к значительному улучшению производительности ИИ-системы. Они также исследовали свойства задач, которые способствуют достижению этого эффекта, и оценили общую применимость и совместимость предложенного метода с существующими подходами.

    Метод Agent Forest состоит из двух этапов:

    1. Выборка (Sampling): На данном этапе генерируется N различных ответов от агентов (LLMs) путем многократного запроса к модели с тем же вводом.

    2. Голосование (Voting): После генерации выборки ответов производится оценка их сходства. Финальный ответ выбирается как тот, который имеет наибольшее суммарное сходство с остальными ответами в выборке.

    Данное исследование подтверждает, что простое увеличение числа агентов является мощным инструментом для повышения производительности ИИ-систем, особенно в контексте сложных задач. Поэтому не всегда выигрышно обучать одну модель до экстремальных размеров. Несколько моделей поменьше могут совместно выдавать лучший результат, причём дешевле.

  • Internet of Agents

    Концептуальная архитектура для разработки IoA (Internet of Agents)
    Концептуальная архитектура для разработки IoA (Internet of Agents)

    Авторы представили Internet of Agents (IoA) — новый фреймворк, предназначенный для обеспечения гибкой и масштабируемой коллаборации между автономными агентами, основанными на больших языковых моделях (LLMs). Основная цель заключается в преодолении существующих ограничений мультиагентным систем, таких как изоляция экосистем, симуляция на одном устройстве и жестко закодированные коммуникационные каналы.

    Для достижения поставленных целей авторы создали аналог «Интернета» для агентов, где они могут подключаться к общей сети, обнаруживать друг друга, формировать команды и управлять потоками общения. 

    В результате IoA превосходит лучшие решения типа AutoGPT и Open Interpreter, демонстрируя высокую эффективность в решении сложных задач. IoA успешно объединяет агентов с различными инструментами, архитектурами и базами знаний, что позволяет им совместно решать задачи, требующие разнообразных навыков и специализаций. Также IoT гибко масштабируется и пригодна для распределённых сред (включая Internet-of-Things).

    Мультиагентные системы становятся всё более востребованными. А IoA упрощает процесс интеграции разных агентов, работая как «универсальная шина» для взаимодействия.

  • Many-agent Simulations toward AI Civilization

    От архитектуры агента к цивилизации агентов.
    От архитектуры агента к цивилизации агентов.

    Авторы исследовали поведение больших групп автономных ИИ-агентов, моделирующих процессы цивилизационного развития. Основная цель заключается в создании масштабных симуляций, включающих от 10 до более чем 1000 агентов, чтобы понять, могут ли такие агенты самостоятельно развивать специализированные роли, соблюдать и изменять коллективные правила, а также участвовать в культурной и религиозной передаче, приближаясь к формированию ИИ-цивилизаций.

    Для этого авторы разработали архитектуру PIANO (Parallel Information Aggregation via Neural Orchestration), которая позволяет агентам в среде Minecraft взаимодействовать с людьми и другими агентами в реальном времени. 

    В результате агенты смогли достигать значительного прогресса в Minecraft, собирая в среднем 17 уникальных предметов за 30 минут и до 320 уникальных предметов за 4 часа в больших группах. А агенты с модулями социальной осведомленности могли точно определять и реагировать на эмоциональные состояния других агентов, формируя устойчивые социальные отношения. 

    В группах агентов наблюдалась специализация на различные роли (фермеры, шахтеры, стражи и т.д.), что способствовало эффективному выполнению задач и развитию цивилизационных структур. Агенты также могли следовать налоговым законам, а также изменять их через демократические процессы, отражая влияние лидеров мнений. В больших симуляциях агенты успешно распространяли культурные мемы и религиозные идеи, демонстрируя механизмы культурной эволюции и религиозного влияния.

    Глубокое понимание механизмов социального взаимодействия, распределения ролей и «культурных» явлений дает нам новые инструменты для исследования эволюции сообществ и моделирования сложных социальных систем.

  • AIGS: Generating Science from AI-Powered Automated Falsification

    Примеры научных исследовательских процессов, проводимых людьми-исследователями. Опровержение играет ключевую роль на этапе проверки предложенных гипотез, что в конечном итоге приводит к научному открытию.
    Примеры научных исследовательских процессов, проводимых людьми-исследователями. Опровержение играет ключевую роль на этапе проверки предложенных гипотез, что в конечном итоге приводит к научному открытию.

    Авторы представили систему AI-Generated Science (AIGS), способную автономно выполнять весь процесс научных исследований и открывать новые законы. Основной акцент делается на интеграцию процесса фальсификации гипотез, что, по мнению авторов, является сутью научного метода и ключевым элементом для обеспечения научной строгости и прозрачности в AIGS-системах.

    Для достижения поставленных целей авторы разработали мультиагентную систему, которая автономно генерирует идеи и методологии исследований, реализует предложенные методологии и проводит эксперименты, анализирует результаты экспериментов и предоставляет обратную связь для доработки предложений, выполняет фальсификацию гипотез через абляционные исследования и верификацию научных открытий.

    В результате система продемонстрировала высокую степень креативности в генерации идей и методологий (иногда нерелевантных), а также практически 100% успешности в реализации предложенных экспериментов.

    Возможность полностью автоматизировать научный цикл сулит ускорение исследований в самых разных областях, если удастся повысить качество и «глубину» получаемых результатов.

  • ABIDES-Economist: Agent-Based Simulation of Economic Systems with Learning Agents

    Типы агентов и их взаимодействия в ABIDES-Economist
    Типы агентов и их взаимодействия в ABIDES-Economist

    Авторы представили ABIDES-Economist — симуляционную платформу для экономических систем. Основная цель заключается в моделировании взаимодействий между экономическими агентами для анализа производственных и потребительских процессов в экономике, а также денежного обращения. 

    В исследовании используется агентно-ориентированное моделирование (Agent-Based Modeling, ABM), а сновные подходы включают наличие агентов-домохозяйств и фирм, а также агентов центрального банка и правительства, интеграцию обучения с подкреплением (RL) и моделирование взаимодействий и внешних шоков.

    В результате данное исследование закладывает фундамент для дальнейшего развития автономных систем моделирования экономических процессов, объединяя передовые методы ИИ и экономической теории, что открывает новые перспективы для исследований и практических приложений в области экономики, симулируя различные экономические сценарии.

  • AFlow: Automating Agentic Workflow Generation

    Пример узла, оператора и ребра. Представлены необязательные параметры для узлов, структуру некоторых операторов и общие представления ребер.
    Пример узла, оператора и ребра. Представлены необязательные параметры для узлов, структуру некоторых операторов и общие представления ребер.

    Авторы представили AFLOW - платформу для генерации агентных рабочих процессов (agentic workflows) с использованием больших языковых моделей (LLMs). Основная цель заключается в сокращении зависимости от ручного проектирования рабочих процессов, что позволяет повысить масштабируемость и обобщаемость применения LLMs в различных доменах и сложных задачах.

    В исследовании авторы переосмыслили оптимизацию рабочих процессов как задачу поиска в пространстве кодовых представлений, где узлы представляют вызовы LLM, а ребра определяют логику и зависимости между ними.

    Для разработки фреймворка AFLOW использовался алгоритм  Monte Carlo Tree Search (MCTS), а также операторы, которые служат строительными блоками для построения рабочих процессов.

    В результате на шести публичных бенчмарках (HumanEval, MBPP, GSM8K, MATH, HotPotQA, DROP) AFLOW продемонстрировал среднее улучшение производительности на 5.7% по сравнению с передовыми ручными методами и на 19.5% по сравнению с существующими автоматизированными подходами. Также рабочие процессы, сгенерированные AFLOW, позволили меньшим моделям превосходить GPT-4 на отдельных задачах при 4.55% от стоимости инференса GPT-4.

    Вместо ручной сборки пайплайнов, которая может быть долгой и не всегда оптимальной, AFlow позволяет систематически и быстро находить лучшие конфигурации, экономя ресурсы и повышая точность.

  • Automated Design of Agentic Systems

    Обзор предложенного алгоритма Meta Agent Search и примеры обнаруженных агентов.
    Обзор предложенного алгоритма Meta Agent Search и примеры обнаруженных агентов.

    Авторы представили новый исследовательский направление автоматизированного проектирования агентных систем (ADAS). Основная цель ADAS заключается в автоматическом создании мощных агентных систем, включая изобретение новых строительных блоков и их комбинаций. Авторы намерены сократить зависимость от ручного проектирования агентных систем, что позволит повысить эффективность, масштабируемость и обобщаемость применения ИИ-агентов в различных доменах и сложных задачах.

    В исследовании представлен алгоритм Meta Agent Search, который реализует подход ADAS через использование мета-агента для генерации кода все более совершенных агентов, переиспользуя “удачные” наработки.

    В результате агентные системы, созданные с помощью Meta Agent Search, значительно превосходят современные ручные методы. Также созданные агенты демонстрируют высокую переносимость между различными моделями и доменами. Они сохраняют превосходную производительность при переносе на новые задачи и модели, подтверждая их надежность и универсальность.

    Это шаг к полноценному мета-программированию, где ИИ берёт на себя роль «архитектора» агентных систем. Такой путь ускоряет разработку ИИ-агентов для различных отраслей.

  • Thinking LLMs: General Instruction Following with Thought Generation

    Пайплайн оптимизации мыслей.
    Пайплайн оптимизации мыслей.

    Авторы разработали метод обучения больших языковых моделей (LLM) способности "думать" перед ответом на любые задачи, а не только математические или логические. Авторы стремились научить модели генерировать внутренние размышления в текстовой форме для улучшения качества финальных ответов без использования дополнительных размеченных данных.

    Метод Thought Preference Optimization (TPO) позволяет LLM генерировать несколько вариантов ответов с размышлениями, далее модель-судья оценивает только финальные ответы (без размышлений), и на основе оценок формируются пары для обучения методом Direct Preference Optimization (DPO).

    В итоге TPO достигла win rate 52.5% на AlpacaEval и 37.3% на Arena-Hard, превзойдя базовую модель без размышлений, а качество ответов улучшалось с каждой итерацией обучения. Также модель научилась адаптировать длину размышлений под сложность задачи.

    Явная генерация промежуточных рассуждений улучшает качество ответа в широком спектре задач, не требуя ручной аннотации мыслей. Это повышает прозрачность принятия решения и расширяет возможности “думающих моделей” в различных областях применения: от общих задач до маркетинга и здравоохранения.

  • Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning

    Обзор процесса генерации историй в ExploreToM
    Обзор процесса генерации историй в ExploreToM

    Авторы разработали надежный и масштабируемый фреймворк для генерации разнообразных и сложных данных для оценки и обучения LLMs “способности к разуму” (Theory of Mind, ToM). Основная цель заключается в преодолении ограничений существующих бенчмарков, которые используют ограниченные наборы данных с простыми шаблонами, что может приводить к неправильной оценке способностей моделей.

    В исследовании представлен метод ExploreToM, который используется адаптивную генерацию историй с помощью A поиска:*, автоматически генерирует вопросы для оценки понимания и преобразует сюжеты в естественно звучащие повествования.

    В результате Llama-3.1-70B и GPT-4o показали крайне низкие показатели точности (0% и 9% соответственно) на данных, сгенерированных с помощью ExploreToM, что подчеркивает сложность созданных сценариев, а дообучение Llama-3.1-8B-Instruct на данных ExploreToM привело к значительному увеличению точности на классическом бенчмарке ToMi на 27 баллов. Подтверждается 99% согласованность с «правильными» ответами после такой генерации.

    Чтобы моделировать социальные аспекты, ИИ необходима способность к разуму. ExploreToM поднимает планку сложности и выявляет слабые места, стимулируя разработчиков совершенствовать модели в «социальном интеллекте».

  • MindSearch: Mimicking Human Minds Elicits Deep AI Searcher

    Общая структура MindSearch. WebPlanner выполняет роль высокоуровневого планировщика, координируя шаги рассуждения и работу нескольких WebSearcher.
    Общая структура MindSearch. WebPlanner выполняет роль высокоуровневого планировщика, координируя шаги рассуждения и работу нескольких WebSearcher.

    Авторы представили систему MindSearch, объединяющую большие языковые модели (LLMs) и поисковые движки для эффективного поиска и интеграции информации из веба. Основная цель заключается в преодолении существующих ограничений поисковых систем, которые часто не соответствуют сложным человеческим намерениям. Авторы стремятся создать многоагентную архитектуру, имитирующую когнитивные процессы человека при поиске информации, что позволит значительно улучшить качество и релевантность получаемых ответов на сложные запросы.

    MindSearch, состоит из двух основных компонентов: WebPlanner (Планировщик веб-поиска) и WebSearcher (Поисковик веб-страниц). Планировщик моделирует процесс многократного поиска информации, аналогично человеческому мышлению, разбивает пользовательский запрос на атомарные под-вопросы и строит динамический граф рассуждений с помощью алгоритма A* и генерирует последовательные и параллельные подзадачи для более глубокого анализа запроса. А поисковик отвечает за иерархический поиск информации в интернете по заданным под-вопросам, формирует несколько похожих запросов, затем агрегирует и фильтрует результаты для получения наиболее релевантной информации.

    Дополнительно, MindSearch включает механизмы управления контекстом между агентами, что позволяет обрабатывать длинные контексты и распределять когнитивную нагрузку между специализированными агентами.

    В результате MindSearch смог обработать более 300 веб-страниц за 3 минуты, что эквивалентно примерно 3 часам человеческой работы. MindSearch на базе InternLM2.5-7B зачастую даёт более предпочтительные ответы, чем ChatGPT-Web (GPT-4o) и Perplexity.ai (оценка пользователей). 

    Таким образом, MindSearch способствует развитию более совершенных и интеллектуальных ИИ-систем, способных эффективно справляться с комплексными задачами информационного поиска.

  • A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness

    Хронология существующих малых языковых моделей
    Хронология существующих малых языковых моделей

    Авторы представили всесторонний обзор малых языковых моделей (Small Language Models, SLMs) в контексте доминирования больших языковых моделей (Large Language Models, LLMs). Основная цель заключается в анализе текущего состояния исследований, методик, улучшений, областей применения, взаимодействия с LLMs и аспектов надежности SLMs.

    Малые языковые модели способны выполнять специализированные задачи и пригодны для работы в условиях ограниченных ресурсов. SLMs можно получить из LLM с помощью прунинга, дистилляции знаний, квантизации и использованию низгоранговых техник. SLMs успешно применяются в медицинских, финансовых, юридических и научных областях, демонстрируя высокую точность и эффективность. В гибридных архитектурах LLMs могут выступать роутерами для SLMs, улучшая производительность и эффективность целой ИИ-системы.

    Малые языковые модели демонстрируют сопоставимую производительность с LLMs в специализированных задачах при значительно меньших вычислительных затратах и размерах. LLMs далеко не всем доступны; SLM дают экономичные решения для конкретных сценариев (edge-устройства, мобильные приложения, офлайн-режимы). Это направление обеспечивает широкую доступность ИИ-технологий при сохранении высокой производительности и экономический эффективности.

    Итоги

    Итак, подводя итоги года, можно сказать, что исследования в области ИИ-агентов движутся вперёд сразу по нескольким ключевым направлениям.

    Во-первых, нас ждёт ещё больше экспериментов с мультиагентными системами, где автономные «разумные» единицы не просто взаимодействуют, а учатся сотрудничать и конкурировать для достижения общих целей.

    Во-вторых, продолжит развиваться автоматизация проектирования самих агентов и алгоритмов, что позволит быстрее создавать более гибкие решения и экономить человеческие ресурсы.

    Третье направление — совершенствование когнитивных навыков: от способности удерживать в памяти контекст до более глубокого понимания языка и среды.

    Четвёртым пунктом, который становится всё более важным, остаётся экономичность: учёные и инженеры продолжают искать пути для снижения вычислительных и денежных затрат, чтобы инновации не упирались в бесконечные бюджеты, а ИИ-приложения были более доступны людям.

    И наконец, безопасность и этика занимают центральное место во всех обсуждениях будущего искусственного интеллекта: без чёткого контроля, прозрачности и ответственного подхода даже самые передовые разработки могут обернуться обратной стороной медали.

    Поздравляю всех с наступающим! Нас ждёт ещё больше захватывающих открытий, и это здорово, ведь мы живём в по-настоящему интересное время. Если вам понравился этот формат и вы хотите видеть подобные обзоры ежемесячно, ставьте «+» к статье — и до новых встреч в следующем году!