Новости
500

OpenAI добавила в GPT⁠‑⁠4o​ продви­нутый генератор картинок — он до­ступен бесплатно

3
OpenAI добавила в GPT⁠‑⁠4o​ продви­нутый генератор картинок — он до­ступен бесплатно
Аватар автора

Джамиль Махмутов

готовится к новой волне ИИ-слопа

Страница автора

25 марта OpenAI представила обновленный генератор изображений в модели GPT‑4o.

GPT-4o — мультимодальная модель, то есть умеет работать одновременно с текстами и изображениями. Теперь GPT-4o заменяет нейросеть Dall-E 3, которая раньше отвечала за генерацию изображений в ChatGPT.

GPT-4o генерирует дольше, чем Dall-E 3, но зато она выдает более качественный результат, лучше понимает запросы и учитывает сложные инструкции. Так OpenAI ответила на недавно завирусившийся редактор изображений Gemini 2.5 Flash. Попробовать можно бесплатно, но с ограничениями. Расскажу, что умеет обновленная GPT-4o.

Лучше генерирует текст на картинках. В компании отмечают, что генератор подходит для создания комплексной инфографики с осмысленным текстом. В качестве примера показали картинку с объяснением дисперсии света, страницу вымышленного комикса и меню с рецептом блюд. С помощью GPT-4o также можно создавать картинки с надписями на русском языке.

Сохраняет консистентность. Модель научилась переносить внешний вид людей, животных и объектов с одной генерации в другую. Например, при создании персонажа, его внешний вид будет оставаться одинаковым на всех этапах доработки и экспериментов, независимо от количества правок.

Домашний кот, которого решили сделать героем видеоигры о детективе
Сперва ему дали кепку и монокль
А так кот выглядит на фоне открытого мира
А так кот выглядит на фоне открытого мира
Финальное изображение — меню инвентаря. Можно заметить, что дизайн героя на протяжении нескольких итераций оставался неизменным
Финальное изображение — меню инвентаря. Можно заметить, что дизайн героя на протяжении нескольких итераций оставался неизменным

Точнее следует запросам и прорабатывает детали. В OpenAI заявили, что другим нейросетям сложно нарисовать больше 5—8 объектов, GPT-4o справляется с 10—20. Это стало возможным потому, что нейросеть лучше понимает, где должен находиться каждый объект и каким он должен быть.

GPT-4o сделала картинку с 16 объектами по описаниям
GPT-4o сделала картинку с 16 объектами по описаниям

Редактирует готовые картинки. В GPT-4o можно загрузить свое изображение, чтобы нейросеть учитывала детали в новой генерации. Для примера GPT-4o попросили нарисовать патент на транспорт с треугольными колесами, используя шесть референсных картинок. А затем патент превратили в фото в Нью-Йорке.

Ради безопасности генератор не копирует во всех деталях внешность реальных людей, а создает похожих на них персонажей.

В OpenAI показали промпт и картинку, которую создали при помощи референсов
В OpenAI показали промпт и картинку, которую создали при помощи референсов
Так выглядит финальный вариант в виде фото на фоне Нью-Йорка
Так выглядит финальный вариант в виде фото на фоне Нью-Йорка

Лучше генерирует реализм. GPT-4o натренировали на разнообразных изображениях, поэтому она лучше справляется с генерацией фотореалистичных картинок, чем Dall-E.

Доступна бесплатно. GPT-4o с генерацией картинок можно воспользоваться в ChatGPT или в нейросети для генерации видео Sora. Для бесплатных пользователей количество запросов ограничено до трех в день. Для владельцев подписки лимиты тоже есть, но OpenAI их не разглашала

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

Джамиль МахмутовУже оценили новые возможности GPT‑4o? Покажите свои картинки:
    Вот что еще мы писали по этой теме