Kuaishou выпустила Kling O1 (Omni One) — первую унифицированную мультимодальную модель, которая объединяет создание и редактирование видео в одном пайплайне. Вместо переключения между режимами text-to-video, image-to-video, редактирования и продления клипов, все работает в едином интерфейсе через мультимодальный визуальный язык (MVL).
Модель поддерживает семь типов задач: генерация видео по тексту, создание по ключевым кадрам, работа с референсами, добавление и удаление объектов, стилизация, трансформация контента и продление клипов. Пользователь может загрузить до 10 референсных изображений одновременно, а модель сохранит консистентность персонажей, предметов и сцен между кадрами — за эту особенность O1 уже прозвали "Nano Banana Pro для видео".
Редактирование происходит через обычные текстовые команды: "убери прохожих", "смени день на закат", "замени кота на волка", "добавь огонь". Модель сама понимает, что нужно изменить, без ручного выделения масок или покадровой работы. Также появился режим Start/End Frame — можно задать начальный и конечный кадр, а O1 сгенерирует плавный переход между ними.
Технические характеристики следующие: разрешение до 1080p, 30 кадров в секунду, длительность до 10 секунд с возможностью продления до 2 минут. В бета-версии модель стоит 10 Inspiration Points за секунду видео, финальные цены объявят при публичном релизе.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.