Квантовый подход снизил нагрузку на ИИ-сети — учёные из политеха Вирджинии

В архитектуре современных распределенных вычислений существует узкое место, которое становится все более критичным по мере роста сложности задач. Речь идет о коммуникационных расходах. Когда группе автономных устройств — будь то серверный кластер, рой промышленных роботов или сеть сенсоров — необходимо выработать совместное решение, они вынуждены обмениваться огромными массивами сырых данных. Чтобы координировать действия, центральный узел должен знать состояние каждого отдельного элемента системы.

ИИ Copilot Designer//DALL·E 3

Этот подход, являющийся индустриальным стандартом в классическом машинном обучении, в итоге упирается в физические ограничения: пропускную способность каналов, задержки сигнала и экспоненциальный рост требований к вычислительной мощности центрального процессора.

Группа исследователей из Вирджинского политехнического института представила на конференции ICLR 2025 новую архитектуру, получившую название eQMARL (Entangled Quantum Multi-Agent Reinforcement Learning). Их работа предлагает принципиально иной способ организации сотрудничества в цифровых системах. Вместо того чтобы пересылать гигабайты телеметрии, агенты используют ресурс квантовой запутанности для синхронизации своих нейросетей. Это позволяет добиться более высокой эффективности обучения при радикальном снижении объема передаваемых данных и вычислительной нагрузки на центр.

Кризис "центрального узла"

В теории искусственного интеллекта задача управления группой взаимодействующих устройств решается методами мультиагентного обучения с подкреплением (MARL). Наиболее эффективной на сегодняшний день считается схема CTDE: "Централизованное обучение, децентрализованное исполнение".

Логика CTDE строится на строгом разделении ролей. "Агенты" (исполнительные устройства) действуют автономно, опираясь на свои локальные сенсоры. Однако обучает их "Критик" — мощная центральная нейросеть, которая оценивает действия всей группы глобально. Чтобы Критик мог вынести вердикт и скорректировать поведение агентов, он должен получить полную картину происходящего. Это вынуждает каждого агента постоянно транслировать свои локальные наблюдения на сервер.

Здесь возникают три системные проблемы, которые eQMARL призвана решить:

  • Нагрузка на сеть — поток данных растет линейно с количеством агентов. В масштабных системах это приводит к "бутылочному горлышку" пропускной способности.
  • Проблема приватности — агенты обязаны раскрывать свои внутренние данные серверу. В сценариях, требующих конфиденциальности (медицина, финансы, оборонные технологии), передача сырых данных недопустима.
  • Вычислительная тяжесть — центральный Критик должен быть массивной нейросетью, способной переварить объединенный вектор состояний от всех участников. Чем больше агентов, тем сложнее становится эта сеть, что затрудняет масштабирование.

Архитектура eQMARL обходит эти ограничения, отказываясь от передачи классических данных в пользу манипуляций с квантовыми состояниями.

Механика квантового разделения (Split Learning)

В основе предложенного метода лежит концепция раздельного обучения, адаптированная для квантовых каналов связи. Исследователи физически разделили нейросеть Критика на две функциональные части. Первая часть находится непосредственно на агенте, вторая — на центральном сервере. Связующим звеном между ними служит не цифровой код, а квантовая запутанность.

Процесс координации в системе eQMARL можно разложить на три последовательных этапа, которые повторяются в каждом цикле обучения:

Этап 1: Распределение ресурса

Центральный сервер генерирует пары запутанных кубитов. Запутанность — это особое состояние квантовой системы, при котором характеристики частиц остаются взаимосвязанными и коррелированными независимо от расстояния между ними. Сервер оставляет одну часть пар у себя, а вторые половины отправляет агентам через квантовый канал связи. На этом этапе никакой информации о среде еще не передается — создается лишь ресурс для будущей связи.

Этап 2: Локальное кодирование

Агент получает запутанные кубиты и использует их как носитель информации. С помощью локальной вариационной квантовой схемы (VQC — Variational Quantum Circuit) агент кодирует свои наблюдения (данные с сенсоров) в это квантовое состояние. Важно отметить принципиальное отличие от классики: агент не отправляет серверу отчет о том, что именно он видит. Он лишь изменяет фазу и амплитуду полученных частиц в соответствии со своими данными. Это похоже на шифрование, где ключом являются локальные наблюдения.

Этап 3: Совместное измерение

Обработанные кубиты возвращаются на сервер. Вместо того чтобы декодировать сообщение каждого агента по отдельности (что вернуло бы нас к проблеме обработки больших данных), сервер проводит совместное измерение всех кубитов сразу в базисе Паули-Z. Благодаря свойству запутанности, операция измерения позволяет мгновенно оценить суммарную функцию полезности действий всех агентов. Глобальная оценка формируется из интерференции состояний, минуя стадию сбора полной картины мира.

В этой схеме информация о взаимодействии агентов извлекается не путем анализа их отчетов, а через физические корреляции квантовых состояний.

Открытие состояния Пси-плюс

В ходе исследования инженеры столкнулись с неочевидным фактом: эффективность обучения напрямую зависит от типа используемой запутанности. В квантовой механике существует четыре типа максимально запутанных состояний Белла. Их принято обозначать греческими буквами Фи и Пси с индексами плюс и минус.

Эксперименты на симуляционных средах (включая сложные сценарии навигации в лабиринте CoinGame и балансировки в CartPole) показали, что состояние Пси-плюс (суперпозиция состояний "ноль-один" и "один-ноль") обеспечивает наилучшие результаты.

При использовании запутанности типа Пси-плюс скорость сходимости алгоритма — время, необходимое системе для выработки оптимальной стратегии — увеличилась на 17,8% по сравнению с лучшими классическими методами и другими квантовыми конфигурациями. Более того, итоговая результативность агентов (набранные очки) оказалась выше.

Авторы объясняют это специфической устойчивостью состояния Пси-плюс к шумам. В структуре квантовой схемы агента присутствует слой так называемого "циклического запутывания". Фазовые характеристики состояния Пси-плюс позволяют ему проходить через эти слои с наименьшими потерями информации (декогеренцией), действуя как своеобразный фильтр. Это обеспечивает более чистый сигнал для градиентного спуска при обучении нейросети, позволяя системе быстрее находить оптимум.

Эффективность в условиях неопределенности

Особую ценность новая архитектура продемонстрировала в задачах с частичной наблюдаемостью (POMDP). Это класс сценариев, где агент не видит всей картины мира (ограниченный радиус обзора, помехи) и должен принимать решения в условиях недостатка информации.

В классических системах неполнота локальных данных часто приводит к тому, что агенты не могут скоординироваться, так как центральный сервер тоже получает фрагментированную картину. Квантовая архитектура eQMARL повела себя иначе. Запутанность позволила создать неявный канал координации: даже не имея полной информации о среде, агенты смогли синхронизировать свои стратегии через корреляции квантовых состояний.

Графики обучения показали, что там, где классические нейросети демонстрировали нестабильность и высокую дисперсию (результат сильно зависел от случайности), квантовая модель показывала плавный и уверенный рост эффективности. Это свидетельствует о том, что запутанность стабилизирует процесс обучения мультиагентной системы.

25-кратное снижение сложности

Пожалуй, самым значимым инженерным достижением работы стало радикальное упрощение центрального управляющего узла.

В традиционных подходах (например, в популярном алгоритме QMIX) центральный микшер — это сложная нейросеть, количество параметров которой растет вместе с числом агентов. Сервер должен тратить значительные ресурсы на обучение этой сети и хранение ее весов.

В архитектуре eQMARL центральная часть Критика фактически исчезает как сложная вычислительная сущность. Вся процедура оценки сводится к измерению одного наблюдаемого параметра. В ходе экспериментов выяснилось, что квантовый подход требует в 25 раз меньше обучаемых параметров на центральном сервере по сравнению с классическим аналогом.

Вся "интеллектуальная тяжесть" распределяется по периферии (на агентов), а центр выполняет лишь роль квантового координатора. Это делает систему исключительно масштабируемой: добавление новых агентов требует лишь генерации дополнительных пар кубитов, но не требует кратного увеличения вычислительной мощности центрального процессора для обработки нейросетевой логики.

Последствия для архитектуры сетей

Работа eQMARL демонстрирует, что квантовые технологии в машинном обучении — дает возможность принципиально изменить топологию информационных систем.

Исследование доказывает возможность существования "молчаливых" сетей, где координация достигается без явного обмена данными. Это открывает перспективы для создания защищенных распределенных систем, где перехват канала связи бесполезен для злоумышленника. По каналу не передается классическая информация (видео, текст, координаты), а лишь квантовые состояния, которые невозможно скопировать или прочитать без разрушения суперпозиции (согласно теореме о запрете клонирования).

На текущем этапе технология ограничена возможностями современного оборудования класса NISQ (шумные квантовые системы промежуточного масштаба), и требует наличия надежной квантовой памяти и ретрансляторов. Однако алгоритмическая база, заложенная в eQMARL, показывает, что квантовая запутанность может стать стандартным протоколом для межмашинного взаимодействия в будущем, решая проблему перегрузки каналов связи, которая сегодня является одним из главных препятствий для развития интернета вещей и роевого интеллекта.

Информация на этой странице взята из источника: https://www.pravda.ru/science/2323420-quantum-telepathy-robots/