Ну когда нейросети научатся снимать кино? Не скоро, а может, никогда

Еще недавно все увлеклись гиблификацией — превращением фотографий и кадров из фильмов в картинки из мультиков Хаяо Миядзаки. В тот же момент разошлись нейросетевые ролики, в которых Трамп, Макрон и прочие мировые лидеры отмечают православную Пасху. Ну и конечно, нейросетевой сериал про Бомбардиро Крокодило и куча рассуждений об этих феноменах. Дождавшись, когда интернет успокоится на эту тему, Кинопоиск попросил эксперта по видеотехнологиям сформулировать, насколько ближе кинематограф в этом году приблизился к нейроапокалипсису.

Родившись столетие назад великим немым, кинематограф каждое десятилетие менялся: добавлялись цвет, звук, визуальные эффекты, новые способы съемки. XXI век принес новые вызовы: за зрителя теперь конкурируют интерактивные игры и виртуальная реальность, а само киноповествование с появлением стриминговых платформ из коротких отдельных историй разрастается в эпосы и саги. Самое время рассказывать, как меняется кино прямо сейчас, вбирая в себя последние достижения технологий, игр, дополненной и виртуальной реальности.

Антон Уткин

Сценарист и режиссер, сооснователь студии Lateral Summer, которая занимается интерактивным кино и VR-технологиями

Больше года назад мы на Кинопоиске размышляли над вышедшей тогда нейросетью SORA, довольно сильно взбодрившей кино- и видеопроизводителей и интернет-публику. В начале 2024-го мерещились картины конца света, то есть фильмов: OpenAI выложила убедительные ролики, похожие на фрагменты артовых рекламных съемок. Казалось, кино вот-вот закончится, все будут генерировать себе видео. Позже выяснилось, что все не так просто: показанные ролики оказались особенно удачными генерациями. Однако при внимательном рассмотрении полезли всякие шестые пальцы, перепутанные ноги и шакальные отражения — в общем, никакого конца кино не вышло. С тех пор наш безумный технологический прогресс в очередной раз ускорился, новинки в области видеогенерации выходят каждую неделю. Их много расплодилось, все разные и любопытные: Runway, Kling, Dream Machine, Veo... Давайте вместе взглянем на этот зоопарк, на случившиеся за прошедшее время инновации и вместе посозерцаем наше светлое (ну, или не очень) будущее.

За год модели явно улучшились: разработчики не только добились довольно высокого реализма изображения — это все еще не уровень кино, но все ближе к профессиональной съемке. Они также худо-бедно решили главную проблему с любыми изображениями, сгенерированными нейросетями. Теперь алгоритм умеет подхватывать внешность персонажа и довольно точно повторять ее в последующих кадрах, то есть мы на пару шагов ближе к чему-то вроде цифровых актеров. В кадрах уже гораздо меньше ошибок, отсебятины и чуши, но в принципе на этом плюсы заканчиваются. Ракурсы камеры, монтажные склейки, передний и задний планы, детали анатомии, любые крупные планы — все это пока что не выдерживает критики и даже нерадивых студентов киношкол без работы не оставит. Что алгоритм повторяет действительно точно, так это вылизанные, сияющие глянцем рекламные кадры, снятые будто бы с моушен-контролом.

Сгенерированный кадр Runway
Сгенерированный кадр Veo

Если вы ненавидите эту приторную чепуху точно так же, как ненавижу ее я, поздравляю: теперь такое можно довольно дешево генерировать нейросетью. Так что первыми как будто бы без работы останутся не киношники, а рекламщики из продакшенов попроще: всякая там предметочка, видеоролики с композициями из различных предметов, реклама одежды и аксессуаров, гаджетов и прочее. Кажется, там счет пошел уже на месяцы. Живой фото- и видеосъемки обычных людей и актеров в ближайшей перспективе прогресс нейросетей едва ли коснется — с мимикой и эмоциями у генераторов все тоже пока не очень.


А вот модельный бизнес рискует заметно ужаться в ближайшие годы, оставив внутри себя только ярких персонажей, потому что тиражирование умеренности с нейтральными позами, нейтральными выражениями лиц и нейтральными фигурами — с этим алгоритмы справляются отлично.

Подобное тиражирование стремящегося к нейтральности и узнаваемого стиля изображений мы видели во время недавней планетарной гиблификации, когда абсолютно все, даже люди, далекие от нейросетевых картинок, подхватили твит Сэма Альтмана, одиозного главы OpenAI и главного рупора ИИ-революции, и решили попробовать с помощью нового алгоритма переделать свои фотки и картинки в кадры, будто бы нарисованные студией Хаяо Миядзаки. Селфи из спортзала? Конечно. Семейное фото на кухне? Пожалуйста. Мемный кадр из «Груза 200»? Легко. Недели полторы псевдомиядзаковщина лезла изо всех щелей, а потом ее как ветром сдуло. Сам великий аниматор дальновидно смолчал, но мы в целом знаем его позицию по поводу ИИ.

Сгенерированные изображения в стиле студии «Гибли»

Любопытны и механизмы такой вирусности: недурную стилизацию под конкретного художника тот же MidJourney научился пристойно делать больше двух лет назад. Наверное, причины последней эпидемии и в сверхдоступности конкретного прикола, и в уже привычной нравственной глухоте Альтмана, который даже не подумал спрашивать разрешения Миядзаки. А еще в том, что почти все цивилизованные земляне младше условных сорока, то есть люди, как минимум обращающие внимание на ИИ, испытывают теплые чувства к узнаваемому стилю студии; это ведь всё родом из детства! Аляповатые, зачастую выхолощенные неудачные стилизации прошлых алгоритмов нередко вызывали отторжение. Генератор Ghibli практически без сбоев превращает любую картинку во что-то милое и уютное, делает соприкосновение с ИИ чем-то обыденным и безопасным.

С куда меньшим шумом прошла более значимая для кино история: Берлинский, на секундочку, кинофестиваль не только отобрал, но и показал полностью сгенерированный нейросетями полнометражный фильм What’s Next? китайской художницы Цао Ивэнь. Отзывов у него немного, рейтинг на IMDb — 3/10, ну и по трейлеру в общем видно, что это чудовищное дерьмо.

Если бы Цао была кинорежиссером, ее за такое и критики, и коллеги раскатали бы паровым катком, но она художница, она так видит, художникам всё можно. Сам «фильм» — это плохо склеенные цветастые изображения эпохи начала ИИ-бума, сгенерированные устаревшей версией Runway. Героев и диалогов там нет, это просто набор образов, по которому слегка возюкает так называемая камера. Сюжет — что-то про Древний Китай, дискриминацию, насилие и капитализм.

Этические координаты фильма тоже не вполне ясны: с одной стороны, Цао признает, что ее проект не совсем кино в традиционном понимании этого слова, с другой — что она все же «автор» этого «произведения», несмотря на то что изображение проекта сколлажировано из результатов труда тысяч и тысяч безвестных, но абсолютно реальных художников и находится в очень серой правовой зоне. Глава программы Forum Барбара Вурм, описывая свое решение отобрать фильм на фестиваль, наводит творческую тень на плетень, мол, и критики было не так много, и проект стал хорошим поводом подискутировать про человеческие, нечеловеческие и искусственные материи. Дальше, честно признаться, уже не очень интересно (но вы можете почитать интервью целиком).


Я, как зритель и как кинематографист, не хочу иметь к этим цифровым помоям никакого отношения. Ни смотреть, ни обсуждать этот slop (так прозвали потоки фигни, которую генерирует ИИ) не хочется.

За два с половиной года этой революции и мне, и многим коллегам стало понятно вот что: к этому гигантскому услужливому ксероксу для текстов и изображений лучше всего относиться именно как к инструменту, причем промежуточному. Вы же не ждете результатов ксерокопирования в изданной книге? Нет. Автор разберется с вырезками и сканами, по тексту пройдется редактор, поучаствует верстальщик, силы приложат сотрудники типографии. Так и тут: кучу рутинных, ясных, тиражируемых процессов мы уже доверяем нейросетям с довольно предсказуемым результатом. Однако сажать такого помощника в кресло режиссера, оператора или художника-постановщика как-то, как бы это сказать, неумно. Точно так же, как вы не сажаете туда только что пришедшего на проект стажера, пусть даже самого исполнительного и золотого. То есть можете, конечно, но с предсказуемо дерьмовым результатом.

Сгенерированный кадр нейросети Kling

Призма вашего опыта — ваш камертон и ваш авторский подарок миру, заслуженный потом и метафорической кровью. Именно поэтому зрители отказываются смотреть AI slop, а игроки — в такое играть. Все «сделанное с ИИ» моментально теряет субъективную ценность. Потому что мы, Homo sapiens, друг другу субъекты, а AI — неживой объект. Этим же объясняется наше упорное общечеловеческое нежелание как-то очень сильно сопереживать цифровым айдору — что Лил’Микеле, что Хацунэ Мике: они умеренно приятные, умеренно безопасные, абсолютно нескандальные. Возможно, в какой-то момент мы увидим новое поколение виртуальных идолов, но пока что публика будто бы вдоволь наигралась с цифрой и с упоением хватается за любую жареную сплетню с красной дорожки. И это абсолютно нормально.

Совсем свежие новости: актриса, сценаристка и режиссер Наташа Лионн («Матрешка», «Покерфейс») подписалась с уважаемым ветераном индустрии виртуальности Джароном Ланье на создание киноленты с использованием ИИ под названием, ха-ха, «Зловещая долина» — про девушку-подростка, жизнь которой меняет популярная VR-игра. Лионн в этом фильме еще и сыграет. Это не вся новость: производить проект будет новая ИИ-студия, учрежденная актрисой пополам со своим бойфрендом Брином Музером, который уже отметился своим стартапом генерации изображений Moonvalley. Новость звучала бы совсем дико, но есть нюанс: студия Лионн будет работать на одной из первых «чистых» ИИ-моделей, то есть тренировали эту нейросеть на легальных, лицензированных данных. Кажется, этот проект может стать первым большим и значимым прецедентом серьезного использования ИИ в кино.

Наташа Лионн и Брин Музер

Но вернемся к прогрессу. Сейчас в сухом остатке у нас заметные, существенные улучшения пайплайнов, то есть процессов и процедур производства кино и видео. Хороший пример здесь — недавно анонсированная 20-я версия DaVinci Resolve. Это цифровой комбайн, которым делают финальный цвет в приличном количестве голливудских фильмов и сериалов. В руках чутких новых владельцев из Австралии DaVinci превратился в машину для монтажа, звукорежиссуры, цветокоррекции материала и различных титров и визуальных эффектов, а в последние лет пять стремительно обрастает ИИ-алгоритмами, которые теперь ускоряют и монтаж, и зачистку кадров, и собственно работу с цветом, движущимися объектами и много чем еще. «Такие нейросетевые инструменты доступны в индустрии десятки лет», — возразят коллеги по цеху визуальных эффектов и графики и будут, конечно, правы. Однако Resolve — это массовый доступный пакет, примерно как Photoshop в мире фотоизображений, поэтому речь здесь не про нишу, а про действительно глобальное ускорение и упрощение работы в кино.

Таких примеров много: и алгоритмы для работы с трехмерными сканами объектов (NeRF), которые понемногу начинают проникать в рекламу, кино и видеоигры, и действительно полезные инструменты для работы с голосом, и так далее — все это во благо людям и индустрии в целом. Пока что передний край этого, безусловно меняющего кино взаимодействия с ИИ выглядит так, как в нескольких популярных мемах про рисующих роботов. Художники и авторы продолжают отстаивать свое право оставаться художниками и авторами, то есть прежде всего людьми, и перекладывают все больше рутинной, рядовой, банальной работы на нейросети, а авторы алгоритмов продолжают лепить вообще все, что лепится, и запускать в мир. Хороший пример — снова Альтман и его гиблизатор изображений. Помимо всех этих веселых приколов, OpenAI и конкуренты проверяют и тестируют, а за что же мы с вами, то есть живые люди, готовы платить деньги, потому что стоят эти приколы чертовы сотни миллионов долларов. За картинки по мотивам Миядзаки точно нет, а вот за рабочие инструменты по делу — вполне.

И вообще есть большое подозрение, что мы живем в очередном цикле цифрового хайпа. Помните, как все хватались за метаверс, и даже Facebook переименовалась в Meta, а теперь, потеряв миллиарды долларов, понемногу закрывает это перспективное направление. А помните, были NFT? Где они теперь, как у них там дела? Вот-вот.

Meta Horizon Worlds

Apple довольно плавно притормаживает свой с пафосом анонсированный, но толком не запущенный «разум» и все никак не умнеющую «Сири». Amazon долго ковыряется с новой версией «Алексы», потому что — кто бы мог подумать! — очень трудно продать людям, которые привыкли покупать глазами товары на сайте, голосового помощника, так как голосом картинку не продашь. Страшилки типа перспективного плана развития нейросетей AI-2027 так и останутся страшилками, потому что современные модели — это просто сильно улучшенные алгоритмы нахождения похожих последовательностей. То есть если вы задаете вопрос и на этот вопрос в интернете уже кто-то отвечал, то увидите вы именно его, и довольно вероятно, что это будет плохой или неточный ответ, неработающий программный код, нелепая картинка. Ведь нам, людям, свойственно ошибаться и лажать, а умная машина умеет просто повторять эти ответы и коллажировать их вместе, не более того.

Сложнее всем сейчас приходится молодым специалистам целого ряда направлений (медиа, программирование, аналитика), но, возможно, и это тоже всего лишь временная ситуация на рынке, которая скорректируется. Помните, всем нужны были «операторы ПК», потом — «со знанием Photoshop и MS Word», потом добавлялись и уходили другие аббревиатуры и названия умений и навыков, а люди — люди-то как раз оставались.

А вы что думаете про генеративные видео?

Поделитесь своим мнением в комментариях на сайте! Мы приветствуем аргументированную дискуссию.


Фото: Социальные сети, Arturo Holmes / Getty Images