
OpenAI добавила в GPT‑4o продвинутый генератор картинок — он доступен бесплатно

25 марта OpenAI представила обновленный генератор изображений в модели GPT‑4o.
GPT-4o — мультимодальная модель, то есть умеет работать одновременно с текстами и изображениями. Теперь GPT-4o заменяет нейросеть Dall-E 3, которая раньше отвечала за генерацию изображений в ChatGPT.
GPT-4o генерирует дольше, чем Dall-E 3, но зато она выдает более качественный результат, лучше понимает запросы и учитывает сложные инструкции. Так OpenAI ответила на недавно завирусившийся редактор изображений Gemini 2.5 Flash. Попробовать можно бесплатно, но с ограничениями. Расскажу, что умеет обновленная GPT-4o.
Лучше генерирует текст на картинках. В компании отмечают, что генератор подходит для создания комплексной инфографики с осмысленным текстом. В качестве примера показали картинку с объяснением дисперсии света, страницу вымышленного комикса и меню с рецептом блюд. С помощью GPT-4o также можно создавать картинки с надписями на русском языке.



Сохраняет консистентность. Модель научилась переносить внешний вид людей, животных и объектов с одной генерации в другую. Например, при создании персонажа, его внешний вид будет оставаться одинаковым на всех этапах доработки и экспериментов, независимо от количества правок.




Точнее следует запросам и прорабатывает детали. В OpenAI заявили, что другим нейросетям сложно нарисовать больше 5—8 объектов, GPT-4o справляется с 10—20. Это стало возможным потому, что нейросеть лучше понимает, где должен находиться каждый объект и каким он должен быть.

Редактирует готовые картинки. В GPT-4o можно загрузить свое изображение, чтобы нейросеть учитывала детали в новой генерации. Для примера GPT-4o попросили нарисовать патент на транспорт с треугольными колесами, используя шесть референсных картинок. А затем патент превратили в фото в Нью-Йорке.
Ради безопасности генератор не копирует во всех деталях внешность реальных людей, а создает похожих на них персонажей.


Лучше генерирует реализм. GPT-4o натренировали на разнообразных изображениях, поэтому она лучше справляется с генерацией фотореалистичных картинок, чем Dall-E.



Доступна бесплатно. GPT-4o с генерацией картинок можно воспользоваться в ChatGPT или в нейросети для генерации видео Sora. Для бесплатных пользователей количество запросов ограничено до трех в день. Для владельцев подписки лимиты тоже есть, но OpenAI их не разглашала
Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult