Китайская компания Kling AI представила свою новую разработку — Video O1. По словам создателей, это «первая в мире единая мультимодальная видеомодель», способная работать и как генератор, и как редактор видео в одном гибком контуре.
По утверждению Kling AI, Video O1 объединила в себе целый набор задач, для которых раньше приходилось держать под рукой разные инструменты. Модель умеет создавать ролики длительностью от 3 до 10 секунд — по текстовому описанию или по набору референсных изображений. Но этим дело не ограничивается: она столь же легко берётся за уже готовый материал — меняет героя, подстраивает погоду, корректирует стилистику или цветовую гамму. И всё это — по одному запросу, позволяющему одновременно добавить персонажа, перестроить фон и накрутить нужный визуальный стиль.
Одновременная обработка множества входных данных
Модель способна параллельно интерпретировать до семи входов — изображения, фрагменты видео, описания персонажей и обычный текст. Пользователь может менять содержимое ролика простыми командами вроде «Убери прохожих» или «Замени дневной свет на сумерки» — никаких масок, подслоёв и ключевых кадров вручную.
Можно загрузить и собственных персонажей, и реквизит, и целые сцены — система использует их в разных условиях, подстраивая под контекст. В качестве ориентиров модель принимает даже действия или движения камеры. В Kling утверждают, что Video O1 хорошо понимает входные данные и умеет сохранять целостность объекта — будь то человек или предмет — даже при смене ракурсов или обстановки.
В основе Video O1 лежит мультимодальная архитектура‑трансформер, хотя подробностями разработчики делиться не торопятся. Компания представила собственный «Multimodal Visual Language» (MVL) — мультимодальный визуальный язык, который служит своеобразным мостом между текстом и сигналами разных типов. Модель использует цепочки рассуждений, чтобы выстраивать логику событий, — за счёт этого видеогенерация становится не механической реконструкцией паттернов, а чем‑то более «осмысленным». В описаниях Kling звучит та же интонация, что и в недавних заявлениях Google о развитии Nano Banana Pro.
Kling AI сравнила Video O1 с Google Veo 3.1 и Runway Aleph. В заданиях, где нужно создать видео по набору изображений, разработчики заявляют о значительном превосходстве над функцией Google «ingredients to video». В области трансформации видео — то есть редактирования существующих роликов — оценщики выбирали O1 вместо Runway Aleph в 230% случаев. Разумеется, все эти данные — внутренние результаты Kling AI, которые пока никто не проверял извне.
Модель O1 уже доступна через веб‑интерфейс Kling. Но хотя китайская компания явно продвинулась вперёд, конкурентная гонка ни на минуту не стихает. Почти синхронно Runway представила Gen-4.5 — свою самую мощную видеомодель. На Западе Kling соперничает с Google, OpenAI и Midjourney, а на внутреннем рынке — с такими игроками, как Hailuo, Seedance и Vidu, делающими ставку прежде всего на доступность и эффективность.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!