Google DeepMind научила Genie 3 менять миры в реальном времени

Google DeepMind представила новую версию своей системы мировых моделей – Genie 3. В отличие от обычных генеративных моделей, семейство Genie создает интерактивные миры, которыми могут управлять как люди, так и автоматизированные ИИ-агенты. И хотя результат внешне напоминает видеоигру, разработчики позиционируют систему как инструмент для тренировки других ИИ-систем.

Первый взгляд на Genie 3 может не вызвать такого же вау-эффекта, как декабрьский релиз Genie 2, когда система научилась генерировать полноценные 3D-миры с запоминанием окружения. Предыдущая версия могла точно воссоздавать части среды даже после того, как пользователь покидал их для исследования других областей – проблема, с которой не справлялись многие конкуренты вроде Oasis от Decart, путавшегося в собственных уровнях Minecraft.

https://www.youtube.com/watch?v=PDKhUknuQDg

Улучшения третьей версии кажутся скромнее, но Шломи Фрухтер, директор исследований DeepMind, и Джек Паркер-Холдер, научный сотрудник лаборатории, уверены – это важные шаги на пути к искусственному общему интеллекту.

Что же умеет новинка?

Прежде всего, Genie 3 выдает видео в разрешении 720p вместо прежних 360p. Система также способна поддерживать стабильную симуляцию значительно дольше. Genie 2 теоретически могла работать до 60 секунд, но на практике часто начинала "галлюцинировать" гораздо раньше. DeepMind утверждает, что Genie 3 может функционировать несколько минут, прежде чем появятся артефакты.

Но главная фишка новой версии – функция "promptable world events" (события мира по запросу). Если Genie 2 была интерактивной в том смысле, что пользователь мог вводить команды движения и модель реагировала после генерации следующего кадра, то Genie 3 делает эту работу в реальном времени. Более того, теперь можно изменять симуляцию с помощью текстовых запросов, инструктирующих систему изменить состояние генерируемого мира.

В одной из демонстраций DeepMind показала, как модель добавила стадо оленей в сцену с лыжником, спускающимся с горы. Олени двигались не самым реалистичным образом, но именно эта функция, по мнению разработчиков, делает Genie 3 по-настоящему прорывной технологией.

Существует множество сценариев, которые должны произойти перед тем, как модель может быть развернута в реальном мире, но мы видим в этом способ более эффективно обучать модели и повышать их надежность.

В качестве примера Фрухтер отметил, что Genie 3 можно использовать для обучения беспилотного автомобиля безопасно избегать пешехода, внезапно вышедшего на дорогу.

Несмотря на впечатляющие улучшения, ИИ лаборатория Google признает, что предстоит еще много работы. Например, модель не может генерировать реальные локации с идеальной точностью и испытывает проблемы с отображением текста. Для настоящей полезности DeepMind считает, что система должна поддерживать симулированный мир часами, а не минутами.

На данный момент Genie 3 недоступна для широкой публики, но DeepMind работает над предоставлением доступа дополнительным тестировщикам. Судя по темпам развития технологии, ждать массового доступа придется недолго.