Video O1 от Kling AI обходит Veo 3.1 в обработке исходных изображений

Китайская компания Kling AI представила свою новую разработку — Video O1. По словам создателей, это «первая в мире единая мультимодальная видеомодель», способная работать и как генератор, и как редактор видео в одном гибком контуре.

По утверждению Kling AI, Video O1 объединила в себе целый набор задач, для которых раньше приходилось держать под рукой разные инструменты. Модель умеет создавать ролики длительностью от 3 до 10 секунд — по текстовому описанию или по набору референсных изображений. Но этим дело не ограничивается: она столь же легко берётся за уже готовый материал — меняет героя, подстраивает погоду, корректирует стилистику или цветовую гамму. И всё это — по одному запросу, позволяющему одновременно добавить персонажа, перестроить фон и накрутить нужный визуальный стиль.

Одновременная обработка множества входных данных

Модель способна параллельно интерпретировать до семи входов — изображения, фрагменты видео, описания персонажей и обычный текст. Пользователь может менять содержимое ролика простыми командами вроде «Убери прохожих» или «Замени дневной свет на сумерки» — никаких масок, подслоёв и ключевых кадров вручную.

Можно загрузить и собственных персонажей, и реквизит, и целые сцены — система использует их в разных условиях, подстраивая под контекст. В качестве ориентиров модель принимает даже действия или движения камеры. В Kling утверждают, что Video O1 хорошо понимает входные данные и умеет сохранять целостность объекта — будь то человек или предмет — даже при смене ракурсов или обстановки.

В основе Video O1 лежит мультимодальная архитектура‑трансформер, хотя подробностями разработчики делиться не торопятся. Компания представила собственный «Multimodal Visual Language» (MVL) — мультимодальный визуальный язык, который служит своеобразным мостом между текстом и сигналами разных типов. Модель использует цепочки рассуждений, чтобы выстраивать логику событий, — за счёт этого видеогенерация становится не механической реконструкцией паттернов, а чем‑то более «осмысленным». В описаниях Kling звучит та же интонация, что и в недавних заявлениях Google о развитии Nano Banana Pro.

Kling AI сравнила Video O1 с Google Veo 3.1 и Runway Aleph. В заданиях, где нужно создать видео по набору изображений, разработчики заявляют о значительном превосходстве над функцией Google «ingredients to video». В области трансформации видео — то есть редактирования существующих роликов — оценщики выбирали O1 вместо Runway Aleph в 230% случаев. Разумеется, все эти данные — внутренние результаты Kling AI, которые пока никто не проверял извне.

Согласно внутренним тестам Kling AI, Video O1 заметно превосходит Google Veo 3.1 при работе с изображениями-референсами и обходит Runway Aleph в задачах по преобразованию видео
Согласно внутренним тестам Kling AI, Video O1 заметно превосходит Google Veo 3.1 при работе с изображениями‑референсами и обходит Runway Aleph в задачах по преобразованию видео

Модель O1 уже доступна через веб‑интерфейс Kling. Но хотя китайская компания явно продвинулась вперёд, конкурентная гонка ни на минуту не стихает. Почти синхронно Runway представила Gen-4.5 — свою самую мощную видеомодель. На Западе Kling соперничает с Google, OpenAI и Midjourney, а на внутреннем рынке — с такими игроками, как Hailuo, Seedance и Vidu, делающими ставку прежде всего на доступность и эффективность.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник