Нейросеть Dall-E 3: как пользоваться ИИ от OpenAI для генерации картинок

Нейросеть Dall-E 3: как пользоваться ИИ от OpenAI для генерации картинок

Больше не нужно учиться составлять запросы — нейросеть и это сделает за вас
12
Аватар автора

Даша Лейзаренко

рисует мемы с грустным котом

Страница автора

В конце сентября компания OpenAI представила третье поколение нейросети Dall-E — конкурента Midjourney и Stable Diffusion.

Dall-E 3 может генерировать картинки в разных стилях. Она доступна бесплатно, не требует мощного компьютера, а еще с ней можно не учиться составлять промпты. Вы пишете запрос, а нейросеть сама «докручивает» идею и генерирует картинку. Рассказываем, где воспользоваться Dall-E 3 и в чем ее особенности.

Что такое Dall-E 3

OpenAI, разработчик революционного чат-бота ChatGPT, выпустил Dall⁠-⁠E в 2021 году. Это была одна из первых нейросетей, которые умеют качественно рисовать картинки по текстовому описанию. Однако у простых пользователей доступа к ней не было.

Весной того же года появилась упрощенная модель Dall⁠-⁠E mini, которая прямо в браузере генерировала девять не очень качественных, но узнаваемых картинок по текстовому промпту. Плохое качество понравилось интернету, нейросеть завирусилась, там стали делать странные генерации, ставшие мемными.

Генерации в Dall⁠-⁠E mini
Генерации в Dall⁠-⁠E mini
Генерации в Dall⁠-⁠E mini

В начале 2022 года OpenAI представила Dall⁠-⁠E 2, которая генерировала картинки более высокого качества и поддерживала запросы на русском языке. Нейросеть появилась даже раньше, чем первые версии Stable Diffusion и Midjourney, которые набрали широкую популярность благодаря открытому и бесплатному доступу.

Доступ к Dall-E 2 можно было получить только через список ожидания. Это мало кому удавалось, так что в интернете эту версию практически не обсуждали. В сентябре 2022 года нейросеть открыли для всех: Dall-E 2 была доступна на сайте OpenAI и позже в поисковике Bing.

Генерации Dall⁠-⁠E 2
Генерации Dall⁠-⁠E 2

Dall⁠-⁠E 3 представили в конце сентября 2023 года, а публичный доступ к ней появился в начале октября.

Нейросеть доступна бесплатно через Bing Image Creator и по платной подписке в ChatGPT. Доступа к API пока нет, его обещали предоставить позже.

Какие у Dall-E 3 особенности

Больше не нужно учиться промптингу. Чтобы генерировать картинки в большинстве популярных нейросетей, например Midjourney или Stable Diffusion, нужно изучать их синтаксис. Это означает, что придется учиться составлять запросы по специальной формуле на английском языке и указывать неочевидные дополнительные параметры.

Dall-E 3 поддерживает русский язык и понимает естественную речь. С ней можно общаться так же, как вы разговариваете с людьми, и вносить правки, если вас не устраивает результат. К примеру, в нейросети сработает как запрос «нарисуй мне фиолетового анимешного кота», так и «фиолетовый кот, аниме» или даже «🐱💜».

Текстовая нейросеть прочитает ваш запрос и перепишет его так, чтобы алгоритм, который генерирует картинки, лучше понял, что вы хотите получить. Из-за этого генерации получаются разнообразнее, а один и тот же запрос может выдавать абсолютно разные результаты.

Как Dall⁠-⁠E 3 генерирует картинку

  1. Пользователь пишет запрос.
  2. Неизвестная версия GPT в Bing или GPT-4 в ChatGPT переписывает этот запрос согласно своей встроенной инструкции.
  3. Dall-E 3 генерирует изображение на основе модифицированного запроса.

Запрещен любой оскорбительный контент. В Dall-E 3 нельзя генерировать сцены, содержащие насилие, ненависть или NSFW-контент. Однако в первые дни после запуска Dall-E 3 в Bing Image Creator пользователи принялись делать картинки «на грани». В генерациях персонажи поп-культуры врезались в башни-близнецы или позировали для обложек эротических журналов. После этого для Dall-E 3 усилили цензуру: теперь там не получится сгенерировать даже удар молотком или гору человеческих костей. Теперь многие жалуются, что алгоритму сделали «лоботомию», и ищут способы обхода ограничений.

Знаменитостей и общественных деятелей сгенерировать тоже не получится — запрос вернется с ошибкой. OpenAI ввела этот запрет «ради безопасности». Судя по всему, компания учла опыт Midjourney: в 2022 году пользователи сгенерировали в этой нейросети Папу Римского в пуховике «Баленсиага» и арест Дональда Трампа. Позже СМИ пришлось объяснять, что это не настоящие снимки.

Нейросеть отказывается имитировать стиль художников, живших в последние сто лет. Dall-E 3 не станет генерировать кадр из фильма Уэса Андерсона или картину Сальвадора Дали из-за нарушения авторских прав. При этом нейросеть может имитировать чужой стиль, если описать его словами без упоминания имени художника.

Вероятно, такое решение принято, чтобы избежать судебных разбирательств из-за копирайта. Художники уже подавали в суд на разработчиков Stable Diffusion и Midjourney, потому что работы без их согласия использовали для обучения нейросетей. Кроме того, если художник заметит, что Dall-E 3 все-таки обучалась на его работах, то может обратиться к OpenAI и попросить заблокировать генерацию таких изображений.

Как пользоваться Dall-E 3

В Bing Image Creator

Шаг 1. Перейдите с иностранным IP-адресом на страницу Bing Image Creator в любом браузере. Другой способ: нажмите на иконку Bing Image Creator в сайдбаре браузера Microsoft Edge.

Шаг 2. Войдите в свой профиль Microsoft или зарегистрируйтесь, если у вас его нет.

Шаг 3. Напишите запрос в поле и нажмите «Создать» или кликните на кнопку «Удиви меня» — в этом случае нейросеть сама напишет промпт.

В день дается 25 «ускорений». Когда они закончатся, картинки будут генерироваться медленнее. Это ограничение нужно, чтобы снизить нагрузку на серверы. Докупить ускорения нельзя.

Шаг 4. Сохраните картинку. По запросу сгенерируются три или четыре изображения — от чего это зависит, неясно. Каждая картинка создается в формате 1024 × 1024 пикселя. Поменять соотношение сторон или разрешение нельзя. Чтобы сохранить, нажмите на понравившийся результат и выберите «Загрузить».

Нажмите «Присоединиться и создать»
Напишите запрос и нажмите «Создать»
Выберите понравившийся вариант
Сохраните картинку
Как пользоваться Dall-E 3

В ChatGPT Plus

Дисклеймер

Доступ к Dall-E 3 добавляют подписчикам ChatGPT Plus постепенно. К моменту написания текста у нас функция появилась, но некоторые пользователи ChatGPT в соцсетях пишут, что у них ее до сих пор нет.

Шаг 1. Перейдите на сайт ChatGPT и зарегистрируйтесь, если у вас еще нет аккаунта. Для этого потребуется иностранный IP-адрес и зарубежный номер телефона. О том, как пройти регистрацию из России, мы подробно рассказывали в гайде.

Шаг 2. Оформите платную подписку ChatGPT Plus. В правом меню нажмите Upgrade to Pro, выберите Upgrade Plan и оплатите подписку международной картой. Российские карты сайт OpenAI не принимает. Подписка стоит 20 $⁣ (1950 ₽) в месяц.

Шаг 3. Создайте новый чат, вверху выберите GPT-4, в выпадающем окне нажмите Dall-E 3 и напишите запрос. В чате вы одновременно обращаетесь к GPT-4 и Dall-E 3, поэтому если вы зададите общий вопрос, то нейросеть ответит текстом. Чтобы началась генерация изображения, попросите нейросеть нарисовать, сгенерировать или придумать картинку.

GPT-4 дополнит ваш запрос и на его основе напишет четыре промпта, по которым Dall-E 3 сгенерирует картинки. Расширенные запросы можно посмотреть, кликнув на сгенерированную картинку. Они появляются справа в поле «Подсказка».

По умолчанию нейросеть генерирует четыре картинки размером 1024 × 1024 пикселя. В запросе можно указать, чтобы нужны горизонтальные (1792 × 1024 пикселя) или вертикальные (1024 × 1792 пикселя) картинки.

Шаг 4. Выберите лучший вариант, нажмите на него или просто наведите курсор. Нажмите на кнопку сохранения.

Откройте новый чат
Выберите Dall⁠-⁠E 3 в бета⁠-⁠функциях
Введите запрос
Выберите понравившийся результат
Сохраните

Какие результаты получаются в Dall-E 3

Мы протестировали Dall-E 3 в ChatGPT. И вот в чем она хороша.

Креативные идеи. Нейросеть отлично понимает промпты, не пропускает слова в запросе и прорабатывает мелкие детали. Благодаря этому в ней можно сгенерировать практически любую идею. Она постарается понять ваш запрос и переписать его так, чтобы ничего не упустить.

Dall-E 3 также отлично знает мемы и поп-культуру, хотя из-за фильтров там не получится сгенерировать популярных персонажей вроде Марио или Чужого. При этом фильтр иногда не срабатывает — нам удалось сгенерировать логотип «Читос», хотя он тоже защищен авторским правом.

Фигурка инвестора
Картинка для соцсетей журнала про деньги
Ретрофото инопланетянина в стоматологическом кресле
Реклама дезодоранта с запахом «Читос»
Концерт рок⁠-⁠группы в супермаркете
Мем с Доге

Текст. У Dall-E 3 получаются красивые комиксы, графики, схемы, чего сложно добиться в других нейросетях. Правда, текст в них зачастую несвязный и с лишними буквами или символами. К тому же нейросеть генерирует только текст на английском.

При этом если вам нужно сгенерировать пару слов на логотипе, то получится хорошо.

Анатомия эмодзи
График расширения Вселенной
Комикс о том, как покупать деньги
Картинка с киберпанк-жабой и подписью Techocult
Мем с грустным котом

Стили. Dall-E 3 генерирует картинки в разных медиумах и форматах. Хотя имена художников использовать нельзя, нейросеть не всегда отказывается генерировать по таким запросам: в промпте она заменяет имя артиста на описание его стиля.

Иногда фильтр, защищающий от нарушений авторского права, получается обойти. Например, если использовать искаженное имя художника или попросить не переписывать запрос, а точно ему следовать.

Фото кота на пленку
Лего⁠-⁠кот
Абстрактный кот
Кот в стиле Тарковского

Фотореализм. Dall-E 3 пока не очень хорош в генерации реалистичных фотографий. Линии на снимках получаются слишком плавными — сразу видно, что они сгенерированы в нейросети.

Stable Diffusion и Midjourney генерируют фотореализм на порядок лучше. Пользователям даже удавалось выдавать сгенерированные снимки за настоящие.

Сгенерированные фото разных людей
Сгенерированные фото разных людей
Сгенерированные фото разных людей

Чем генерация в ChatGPT отличается от Bing Image Creator: советы

В чате с GPT-4 вы можете посмотреть, как нейросеть переписала ваш запрос, кликнув на картинке. Bing Image Creator эту информацию не показывает.

Пользователи Reddit нашли большую инструкцию, которой следует GPT-4, когда переписывает ваш запрос. В ней указаны ограничения и рекомендации, которым должна следовать нейросеть. По сути, она действует как посредник между вами и Dall-E 3.

Вот как можно оптимизировать «посредничество» GPT-4 при составлении запроса.

Попросите не слишком сильно расширять ваш запрос. Нейросеть превращает любой запрос даже из одного слова в очень детальный параграф текста, который состоит как минимум из трех предложений. Часто это полезно и удобно, но иногда GPT-4 слишком радикально модифицирует запрос, что приводит к неудовлетворительным результатам. В таком случае попросите GPT-4 создать короткий и лаконичный промпт.

Попросите вообще не модифицировать ваш запрос. Если вы уверены в своем промпте, то отправьте его Dall-E 3 таким, какой он есть, безо всяких изменений. Одновременно можно отправлять четыре промпта на английском языке.

Указывайте медиум. Если вы не укажете, что хотите получить — фото, картину, кадр из фильма, иллюстрацию, — то нейросеть сгенерирует абсолютно разные изображения. В результатах будет все подряд: и фото, и картинка, и иллюстрация. Если хотите получить фотографии, то прямо прописывайте это, нейросеть сгенерирует четыре снимка.

Какая инструкция используется в Bing Image Creator — неизвестно. Повлиять на «посредничество» версии GPT из Bing не получится.

Что в итоге

  1. Dall-E 3 — отличный аналог Midjourney и Stable Diffusion. В отличие от первой, она доступна бесплатно, а в отличие от второй — не требует мощного компьютера и навыков программирования.
  2. А еще нейросеть не требует навыков промптинга. Запросы можно писать на русском языке и естественным языком, не расписывая детали. Dall-E 3 додумает за вас.
  3. Dall-E 3 прекрасно понимает запрос и не упускает детали. Благодаря этому она хороша в генерации креативных идей. Умеет генерировать разные стили, мемы и текст, но в фотореализме уступает другим нейросетям.
  4. У Dall-E 3 есть ограничения: нельзя генерировать знаменитостей и картинки в стиле художников, живших в последние сто лет. Последнее ограничение можно обойти.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

Даша ЛейзаренкоУже пробовали Dall-E 3? Расскажите о своем опыте: