Нейросети генерируют видео: как это работает и где попробовать самому

ИИ учится создавать ролики по описанию — получается пока странно
6
Нейросети генерируют видео: как это работает и где попробовать самому
Аватар автора

Даша Лейзаренко

нагенерировала видео

Страница автора

Генерация картинок за два года показала большой прогресс, а с видео дела пока обстоят не очень хорошо.

Компании представляют новые модели для генерации, но мало к каким открывают доступ. Приемлемое видео получить пока трудно. Ролики выходят низкого качества и с многочисленными артефактами. Крупные компании не открывают доступ к своим алгоритмам, а в единственной актуальной открытой нейросети пользователи генерируют абсурдные мемы — для другого ее сложно приспособить.

Разобрались, как работает генерация text-to-video и где попробовать ее уже сейчас.

Что такое text-to-video генерация и как она работает

Алгоритмы генерации видео устроены сложнее, чем модели для создания картинок. Если в первом случае нужно сгенерировать одно изображение на основе миллионов других, то во втором требуется последовательность связных и быстро сменяющих друг друга картинок. Например, для пятисекундного видео с частотой 24 кадра в секунду требуется 120 изображений.

Первые шаги в генерации видео по текстовому описанию исследователи сделали в 2022 году. Сразу несколько компаний представили алгоритмы, которые по-разному генерируют видео.

Диффузионные модели работают так: берется картинка, на нее добавляется шум до тех пор, пока она вся не будет шумной. Затем эти изображения соединяют в пару. Из пар «картинка-шумная картинка» создается датасет, на котором нейросеть обучается делать обратную операцию: из шума создавать изображение. Так работает нейросеть для генерации картинок Stable Diffusion.

Если говорить о генерации видео, то работает это так: например, нейросеть Make-A-Video от компании Meta получает текстовый запрос, преобразует его в эмбеддинг — векторное представление данных — и отдает декодировщику, который диффузионным методом генерирует изображение. Но не одно, а сразу 16 — и так, чтобы объекты были согласованы между собой. После этого у набора кадров повышают разрешение и соединяют в видео длиной в несколько секунд.

Make-A-Video обучали только на парах «текст-изображение». А нейросеть Imagen on Google, работающую на диффузионной модели, помимо этого также обучали на парах «текст-видео».

Сложные модели состоят из нескольких алгоритмов. Например, нейросеть Phenaki от Google генерирует видео с помощью кодировщика и нейросети-трансформера. Кодировщик преобразует видео в токены — сжатые данные о ролике. Нейросеть-трансформер анализирует текстовый запрос и создает видеотокен. Затем он превращается в сгенерированное видео, которое соответствует запросу.

В результате получаются длинные ролики продолжительностью до нескольких минут. Они требуют детального описания сцен, а не короткого, как у диффузионных моделей. Phenaki обучали на парах «текст-видео» и «текст-изображение».

Схема работы Phenaki. Источник: arXiv.org
Схема работы Phenaki. Источник: arXiv.org

Какие модели генерации видео существуют

Большинство моделей недоступно для публики: их тестируют в закрытом режиме внутри компаний. Google, например, переживает о том, что пользователи могут использовать технологию во вред: генерировать фальшивые видео или порно-дипфейки.

Сохраняется и проблема с авторскими правами: ИИ обучали на видео, которые принадлежат разным правообладателям. С такими проблемами столкнулись и создатели нейросетей, которые генерируют картинки. На компанию Stability AI, разработчика Stable Diffusion, подали в суд за нарушение авторских прав, поскольку в датасет входили изображения, принадлежащие художникам.

Вот какие нейросети уже показали исследователи.

CogVideo. В мае 2022 года китайские разработчики представили нейросеть CogVideo с открытым кодом, которая умеет генерировать очень короткие видео с частотой восемь кадров в секунду. На ввод принимает текст или изображение.

Протестировать демо можно на сайте, но модель генерирует гифку: анимация занимает одну секунду и состоит из четырех кадров. Нейросеть уже устарела: выдает посредственные результаты, а на сложных запросах генерирует непонятное месиво.

Результат генерации в CogVideo. Запрос: улитка ползет
Результат генерации в CogVideo. Запрос: улитка ползет

Make-A-Video. В сентябре Meta представила нейросеть Make-A-Video, которая может генерировать ролики продолжительностью не более пяти секунд в низком качестве. На вход нейросеть принимает текстовое описание, изображения и видео.

Компания показала тестовые ролики в низком качестве с артефактами, дерганой анимацией и смазанными объектами. Доступ к модели пока так и не открыли, но некоторые разработчики успели записаться в лист ожидания.

Результат генерации в Make⁠-⁠A⁠-⁠Video. Запрос: собака в супергеройском костюме с красным плащом летит в небе. Источник: makeavideo.studio
Результат генерации в Make⁠-⁠A⁠-⁠Video. Запрос: собака в супергеройском костюме с красным плащом летит в небе. Источник: makeavideo.studio

Imagen Video. В октябре Google показала нейросеть, которая генерирует видео в разрешении до 1280×768 пикселей с частотой 24 кадра в секунду и продолжительностью до трех секунд. Она работает на основе диффузионной нейросети Imagen, которая генерирует картинки.

Сгенерированные видео неидеальны — на них много артефактов и шума. Компания отказалась делиться исходным кодом из-за опасений, что пользователи начнут генерировать опасный контент.

Результат генерации в Imagen. Запрос: Мишка Тедди бежит по автомобильной дороге. Источник: imagen.research
Результат генерации в Imagen. Запрос: Мишка Тедди бежит по автомобильной дороге. Источник: imagen.research

Phenaki. Одновременно с выходом Imagen Video Google показала другую модель, которая может генерировать по детальному описанию длинные видео до нескольких минут, а в теории — неограниченные по времени. Она работает на основе нейросети-трансформера. Проблема в том, что Phenaki может генерировать видео только в низком разрешении.

Разработчики планировали использовать Phenaki совместно с Imagen Video, чтобы получать видео в высоком разрешении, но пока не представили такой алгоритм. Модель также не появился в публичном доступе из-за опасений Google.

Результат генерации в Phenaki. Запрос: Фотореалистичный плюшевый мишка плавает в океане в Сан⁠-⁠Франциско. Плюшевый мишка уходит под воду. Плюшевый мишка продолжает плыть под водой с разноцветными рыбками. Панда всплывает над водой. Источник: phenaki.github.io
Результат генерации в Phenaki. Запрос: Фотореалистичный плюшевый мишка плавает в океане в Сан⁠-⁠Франциско. Плюшевый мишка уходит под воду. Плюшевый мишка продолжает плыть под водой с разноцветными рыбками. Панда всплывает над водой. Источник: phenaki.github.io

Dreamix. В феврале 2023 года специалисты из Google Research представили нейросеть, которая редактирует видео по текстовому запросу. Она может добавлять элементы, заменять объекты и перерисовывать их полностью. Алгоритм работает с видео в низком качестве.

Dreamix также может генерировать видео на основе картинки: заставить объект двигаться или собрать связный ролик из нескольких похожих изображений. Эту модель Google тоже не планирует выпускать.

Результат генерации в Dreamix. Собак поменяли на котов. Источник: dreamix-video-editing
Результат генерации в Dreamix. Собак поменяли на котов. Источник: dreamix-video-editing

Runway Gen-2. Первая версия модели Runway генерирует на основе видео и текстового описания, изменяя стилистику ролика. Попробовать нейросеть можно на сайте. В середине марта стартап Runway представил нейросеть Gen-2. Новая модель генерирует ролики продолжительностью в три секунды только по текстовому описанию — исходное видео не нужно.

Разработчики показали несколько коротких демо, а также предоставили доступ к модели отдельным разработчикам. Видео не отличаются реализмом, но артефактов и шума на них немного. Публичный доступ обещали открыть весной 2023 года.

Результат генерации в Gen⁠-⁠2. Запрос: Человек в желтом скафандре, покрытый слизью. Источник: твиттер-аккаунт Nick St. Pierre
Результат генерации в Gen⁠-⁠2. Запрос: Человек в желтом скафандре, покрытый слизью. Источник: твиттер-аккаунт Nick St. Pierre

Где можно сгенерировать видео самому

В марте 2023 года исследовательское подразделение китайской Alibaba DAMO Vision Intelligence Lab выпустило нейросеть c открытым исходным кодом ModelScope для генерации видео. Она использует диффузионную модель, схожую с алгоритмом Stable Diffusion.

Демо доступно публично. Нейросеть генерирует 2,5-секундные ролики с логотипом Shutterstock — убрать его не получится. Судя по всему, это происходит, потому что датасет, на котором обучали ModelScope, состоял из стоковых видео с вотермарками.

Как сгенерировать видео в ModelScope. Перейдите на Hugging Face, введите короткий запрос на английском языке, например, «конь бежит по океану», и нажмите Generate. С длинными и сложными промптами ModelScope не справится: либо не поймет вас, либо сгенерирует только часть.

В среднем ожидание составляет 10—15 минут. Если появляется ошибка, это означает, что серверы перегружены: кликайте на Generate несколько раз, пока не запустится генерация. Если сайт так и не заработает, попробуйте Replicate: там тоже ModelScope, а ролики генерируются за полминуты. Количество генераций ограничено, но лимиты достаточно большие: более 10 видео в сутки.

Видео получаются с артефактами, объекты размыты, а анимация дерганая. ModelScope часто не попадает в запрос. Но это единственная актуальная нейросеть, в которой можно попробовать сгенерировать видео по текстовому запросу в браузере.

Николас Кейдж бьет плюшевого медведя
Конь бежит по океану
Инопланетянин ест тако
Девушка печатает на ноутбуке

Если вы обладаете навыками программирования, то установите модель напрямую — код доступен на сайте ModelScope. Для этого требуется 16 Гб оперативки и видеокарта с 16 Гб памяти.

Что генерируют в ModelScope. Несмотря на то что качество генерации оставляет желать лучшего, пользователи нашли применение нейросети: там массово создают мемные видео.

Все началось с ролика, где Уилл Смит ест спагетти — выглядело это настолько пугающе и забавно, что люди массово стали генерировать видео, на которых знаменитости едят разные блюда. ModelScope «знает» многих известных людей: Илона Маска, Эмму Уотсон, Дуэйна Джонсона и других.

Генерациями делятся в разделе r/StableDiffusion на Reddit: многие объединяют несколько видео в один клип, чтобы получить сюжет. Некоторые сами озвучивают ролики или накладывают музыку.

Получаются одновременно пугающие и забавные сюжеты.
Знаменитости едят еду. Источник: reddit.com
Знаменитости едят еду. Источник: reddit.com
Знаменитости едят еду. Источник: reddit.com
Знаменитости едят еду. Источник: reddit.com

Что нужно знать о нейросетях, которые генерируют видео

  1. Нейросети пока не могут генерировать видео на том же уровне, что картинки или текст. Видео получаются очень короткими, с артефактами и нестабильной анимацией.
  2. Далеко не все существующие модели можно попробовать. Компании опасаются открывать доступ к коду, поскольку боятся, что пользователи будут генерировать фейки или опасный контент.
  3. Те нейросети, которые можно опробовать, выдают неудачные результаты. В соцсетях нашли применение сгенерированным роликам пока только для мемов.
  4. Говорить о генерации консистентных видео пока рано. Но если нейросети продолжат развиваться таким же темпами, то уже через год ситуация может измениться.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult.

Даша ЛейзаренкоПробовали генерировать видео? Расскажите о своем опыте: