Нейросеть для генерации видео Sora от создателей ChatGPT: почему о ней так много говорят
Объясняем интернет
38K
Кадр — OpenAI

Нейросеть для генерации видео Sora от создателей ChatGPT: почему о ней так много говорят

Нейровидео приблизилось к реализму
4
Аватар автора

Даша Лейзаренко

не ест спагетти

Страница автора

15 февраля OpenAI представила нейросеть Sora, которая генерирует видео по текстовому запросу.

Sora может генерировать видео длиной до минуты в высоком качестве и точно следовать запросу пользователя. Она существенно отличается от аналогов, которые создают нереалистичные и дерганные ролики с артефактами.

Пока протестировать нейросеть нельзя, но оценить ее возможности можно по примерам OpenAI.

Расскажу, чем Sora отличается от других нейросетей и как стала источником мемов.

Что такое Sora

Нейросеть создала OpenAI. Эта же компания разработала два других популярных ИИ-сервиса — ChatGPT и Dall-E 3. По словам создателей, новый алгоритм опирается на предыдущие исследования. К примеру, в Sora используется технология из Dall-E 3: у каждой картинки есть детальное описание. Благодаря этому модель способна более точно следовать промптам.

Sora — диффузионная модель. Она обучалась на множестве реальных видео. При генерации Sora берет случайный «шумный» ролик и шаг за шагом превращает его в четкое видео, соответствующее запросу пользователя.

Sora умеет генерировать по текстовому запросу, видео или картинке. Модель может не только создать видеоряд с нуля, но и расширить существующий ролик или анимировать готовую картинку. Пока OpenAI показала только результаты генерации по текстовому промпту.

Не нужно учиться писать запросы. Судя по примерам, которые опубликовала OpenAI, промпты можно писать естественным языком, не выстраивая запрос по специальной формуле и не указывая неочевидные дополнительные параметры.

Во многих генераторах картинок нужно заучивать специальные команды, искать подсказки и прописывать параметры. В Dall-E 3 задачу можно описать простыми словами, как другу. Предположительно так же будет и в Sora.

Нейросеть пока закрыта от публики. Она доступна только для тестировщиков, которые проверяют ее на критичные ошибки. OpenAI также предоставляет доступ художникам, дизайнерам и режиссерам, чтобы собрать отзывы о том, как улучшить модель.

Генерация картинки в Dall⁠-⁠E 3 через ChatGPT
Генерация картинки в Dall⁠-⁠E 3 через ChatGPT

Когда Sora станет доступна

OpenAI пока не объявила, когда нейросеть выйдет в публичный доступ. В ответ на сообщение пользователя разработчики заявили, что Sora — «незаконченный продукт, листа ожидания нет, ожидаемой даты релиза тоже нет».

Как умеет генерировать Sora

Нейросеть умеет генерировать сложные сцены с несколькими персонажами, разными типами движения и точной детализацией фона. Модель понимает не только то, что пользователь прописывает в текстовом запросе, но и то, как эти вещи существуют в реальном мире.

Sora генерирует реалистично. Большая проблема нейросетей, генерирующих видео, — они не могут создать с нуля реалистичных людей, животных, пейзажи или объекты. Реалистичные картинки у Sora получаются значительно лучше, чем у конкурентов. Некоторые кадры невозможно отличить от реальных съемок.

Запрос: очень крупный план моргающего глаза 24⁠-⁠летней женщины, стоящей в Марракеше во время магического часа, кинематографический фильм, снятый в 70 мм, глубина резкости, яркие цвета, кинематографично
Запрос: на этом снимке крупным планом изображен венценосный голубь, демонстрирующий свое поразительное голубое оперение и красную грудь. Его хохолок состоит из нежных кружевных перьев, а глаза — поразительного красного цвета. Голова птицы слегка наклонена в сторону, что создает впечатление царственного и величественного вида. Фон размыт, что привлекает внимание к яркой внешности птицы
Запрос: несколько гигантских шерстистых мамонтов идут к камере, ступая по заснеженному лугу. Их длинный мех слегка развевается на ветру. Заснеженные деревья и заснеженные горы вдали, полуденный свет с расплывчатыми облаками и солнце высоко вдали создают теплое свечение. Камера красиво снимает снизу большое мохнатое животное
Запрос: вид с дрона на волны, разбивающиеся о суровые скалы на пляже Гарай-Пойнт в Биг⁠-⁠Суре. Голубая вода создает белые волны, а золотистый свет заходящего солнца освещает скалистый берег. Вдали виднеется небольшой остров с маяком, край скалы покрыт зеленым кустарником. Крутой спуск с дороги к пляжу представляет собой невероятное зрелище: края скалы выступают над морем. Этот вид передает красоту побережья и суровый ландшафт шоссе Пасифик⁠-⁠Кост

Sora генерирует анимацию. Нейросеть может создавать не только реалистичные видео, но и анимацию. Правда, среди примеров разработчики показали только 3D-реализм в духе Pixar.

Неизвестно, может ли нейросеть имитировать другие анимационные стили, например 2D или абстрактные направления. Однако тестировщики обнаружили, что Sora может достоверно имитировать стиль видеоигры Minecraft.

Запрос: очаровательная счастливая выдра уверенно стоит на доске для серфинга в желтом спасательном жилете, катаясь по бирюзовым тропическим водам рядом с пышными тропическими островами, 3D digital render art
Запрос: мультяшный кенгуру танцует диско
Запрос: в анимированной сцене крупным планом изображен короткий пушистый монстр, стоящий на коленях возле тающей красной свечи. Художественный стиль — 3D и реалистичный, с акцентом на освещение и текстуру. Настроение — удивление и любопытство, монстрик смотрит на пламя широко раскрытыми глазами и открытым ртом. Его поза и выражение лица передают ощущение невинности и игривости, как будто он впервые исследует окружающий мир. Использование теплых цветов и эффектного освещения еще больше усиливает уютную атмосферу изображения
Видео сгенерировано в Sora, звук добавил пользователь. Запрос неизвестен

Sora генерирует консистентно. Нейросеть сохраняет объект неизменным, даже если он временно исчезает из поля зрения или происходит смена ракурса. Это свойство распространяется как на персонажей, так и на окружающую их среду.

Такой подход решает проблему мерцания, характерную для нейросетей, генерирующих видео. Обычно проблема в том, что объекты могут незначительно меняться в рамках одного кадра, даже если не движутся, что приводит к нестабильности изображения.

Запрос: красивое домашнее видео, показывающее жителей Лагоса, Нигерия, в 2056 году. Снято на камеру мобильного телефона
Запрос: стильная женщина идет по токийской улице, залитой теплым светящимся неоном и светом от городских вывесок. На ней черная кожаная куртка, длинное красное платье, черные сапоги, черная сумочка, солнцезащитные очки и красная помада. Она идет уверенно и непринужденно. Улица влажная и отражает свет, что создает зеркальный эффект с разноцветными огнями. Пешеходы прогуливаются мимо
Запрос: трейлер фильма о приключениях 30⁠-⁠летнего космонавта в красном шерстяном вязаном мотоциклетном шлеме, голубое небо, пустыня, кинематографический стиль, снято на 35⁠-⁠миллиметровую пленку, яркие цвета

У Sora есть недостатки. Она может не справиться с точным моделированием физики в сложной сцене и не понимать конкретные случаи причинно-следственных связей. Например, человек может откусить печенье, но на том не всегда остаются следы укуса.

Модель также пугает описание пространства в запросе: лево и право, вперед или назад. А еще испытывает трудности с точным описанием событий: например, если в промпте прописана определенная траектория камеры, нейросеть может ей не последовать.

Запрос: археологи находят в пустыне пластмассовый стул, раскапывают его и вытирают пыль с большой осторожностью. Ошибка: стул смоделировал как мягкий объект
Запрос: пять детенышей серого волка резвятся и гоняются друг за другом по гравийной дороге, окруженной травой. Щенки бегают и прыгают, гоняются друг за другом и щиплют друг друга в процессе игры. Ошибка: из⁠-⁠за большого количества объектов количество щенков меняется
Запрос: сцена c бегущим человека, снятая на пленку 35 мм. Ошибка: сцена с нереалистичным движением

Почему Sora так сильно обсуждают в соцсетях

В день анонса нейросети глава OpenAI Сэм Альтман предложил своим подписчикам в «Твиттере» отправлять ему запросы, чтобы протестировать Sora, а затем опубликовал несколько роликов, сгенерированных по предложенным промптам. Посты завирусились в соцсети, набрав от 7 до 13 миллионов просмотров. Особенно популярным стал ролик с собаками, записывающими подкаст в горах.

Запрос: волшебник в остроконечной шляпе и синей мантии с белыми звездами произносит заклинание, которое выбрасывает молнии из его руки, а в другой руке держит старинный фолиант
Запрос: два золотистых ретривера ведут подкаст на вершине горы
Запрос: животные-спортсмены соревнуются в велосипедной гонке в океане. Снято на камеру беспилотника

Генерации показались пользователям настолько реалистичными, что в соцсети принялись иронично публиковать реальные видео, выдавая их за ролики из Sora. Например, под кадрами из «Титаника», индийских фильмов или клипа Рика Эстли Never Gonna Give You Up писали «До чего дошли нейросети» или целый вымышленный запрос, по которому якобы сгенерирован этот ролик.

В этом принял участие даже Уилл Смит. Когда алгоритмы для генерации видео только начали вируситься, в соцсетях был популярен сгенерированный ролик, в котором актер агрессивно ест спагетти. Из-за низкого уровня технологий в видео было много артефактов и дерганных движений.

Смит воспроизвел сцену с поеданием спагетти в реальности и опубликовал его в «Тиктоке», притворившись, что видео создали с помощью Sora. Ролик набрал 12 миллионов просмотров.

На фоне популярности ролика Смита пользователи соцсетей публиковали ироничные видео с собой и вымышленными промптами вроде «Красивый и богатый парень идет по улице, реализм», выдавая их за сгенерированные в Sora.

Уилл Смит ест спагетти
Ироничный ролик: невероятно красивый парень делает селфи в горах, реализм

Где следить за новыми красивыми видео от Sora

  1. Официальный тикток-аккаунт OpenAI. Там выкладывают свежие видео от Sora, которые не найти в других нейросетях. Иногда разработчики генерируют ролики по пользовательским запросам. Для просмотра из России потребуется доступ к «Тиктоку».
  2. Твиттер-аккаунт Сэма Альтмана, CEO OpenAI. Там выложили несколько примеров генераций по пользовательским запросам в день анонса.
  3. Твиттер-аккаунт Билла Пиблза, сотрудника OpenAI и разработчика Sora. Выкладывает случайные примеры генераций.
  4. Твиттер-аккаунт Тима Брукса, сотрудника OpenAI и разработчика Sora. Он тоже выкладывает случайные примеры видеогенераций.
  5. Твиттер-аккаунт Адитьи Рамеша, сотрудника OpenAI и разработчика Sora. Новые работы появляются и там.
  6. Фанатское сообщество на Reddit, посвященное OpenAI. Тут публикуют все известные примеры генераций в Sora.

Мы рассказываем разные истории о популярной культуре и тех, кто ее создает. Подписывайтесь на наш телеграм: @t_technocult

Даша ЛейзаренкоУже пробовали генерировать видео в нейросетях? Расскажите о своих результатах: