27.03.25

OpenAI добавила в GPT⁠‑⁠4o продвинутый генератор картинок

Джамиль Махмутов

готовится к новой волне ИИ-слопа

Страница автора

Запуск функции для всех пользователей отложили «на некоторое время»

Изначально GPT-4o с генератором картинок была доступна всем пользователям, в том числе бесплатным. Вечером 26 марта глава OpenAI Сэм Альтман сообщил, что из-за высокого интереса полноценный релиз перенесут «на некоторое время». Теперь инструментом можно воспользоваться только с подпиской на ChatGPT.

25 марта OpenAI представила обновленный генератор изображений в модели GPT‑4o.

GPT-4o — мультимодальная модель, то есть умеет работать одновременно с текстами и изображениями. Теперь GPT-4o заменяет нейросеть Dall-E 3, которая раньше отвечала за генерацию изображений в ChatGPT.

GPT-4o генерирует дольше, чем Dall-E 3, но зато она выдает более качественный результат, лучше понимает запросы и учитывает сложные инструкции. Так OpenAI ответила на недавно завирусившийся редактор изображений Gemini 2.5 Flash. Попробовать можно только по платной подписке. Расскажу, что умеет обновленная GPT-4o.

Лучше генерирует текст на картинках. В компании отмечают, что генератор подходит для создания комплексной инфографики с осмысленным текстом. В качестве примера показали картинку с объяснением дисперсии света, страницу вымышленного комикса и меню с рецептом блюд. С помощью GPT-4o также можно создавать картинки с надписями на русском языке.

Сохраняет консистентность. Модель научилась переносить внешний вид людей, животных и объектов с одной генерации в другую. Например, при создании персонажа, его внешний вид будет оставаться одинаковым на всех этапах доработки и экспериментов, независимо от количества правок.

Домашний кот, которого решили сделать героем видеоигры о детективе

Сперва ему дали кепку и монокль

А так кот выглядит на фоне открытого мира

Финальное изображение — меню инвентаря. Можно заметить, что дизайн героя на протяжении нескольких итераций оставался неизменным

Точнее следует запросам и прорабатывает детали. В OpenAI заявили, что другим нейросетям сложно нарисовать больше 5—8 объектов, GPT-4o справляется с 10—20. Это стало возможным потому, что нейросеть лучше понимает, где должен находиться каждый объект и каким он должен быть.

GPT-4o сделала картинку с 16 объектами по описаниям

Редактирует готовые картинки. В GPT-4o можно загрузить свое изображение, чтобы нейросеть учитывала детали в новой генерации. Для примера GPT-4o попросили нарисовать патент на транспорт с треугольными колесами, используя шесть референсных картинок. А затем патент превратили в фото в Нью-Йорке.

Ради безопасности генератор не копирует во всех деталях внешность реальных людей, а создает похожих на них персонажей.

В OpenAI показали промпт и картинку, которую создали при помощи референсов

Так выглядит финальный вариант в виде фото на фоне Нью-Йорка

Лучше генерирует реализм. GPT-4o натренировали на разнообразных изображениях, поэтому она лучше справляется с генерацией фотореалистичных картинок, чем Dall-E.

Доступна по платной подписке. GPT-4o с генерацией картинок можно воспользоваться в ChatGPT или в нейросети для генерации видео Sora. В день запуска функция стала доступна бесплатным пользователям, но 26 марта глава OpenAI Сэм Альтман объявил, что из-за высокого интереса полноценный релиз перенесут «на некоторое время». Инструментом можно воспользоваться с любым уровнем платной подписки на ChatGPT.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

сервисы ChatGPT интернет нейросети