Flux генерирует реалистичные изображения: как пользоваться нейросетью бесплатно

Нейросети

29.08.24

68K

Сгенерированное изображение — Лев Переулков / Flux

Flux генерирует реалистичные изображения: как пользоваться нейросетью бесплатно

Сервис от разработчиков Stable Diffusion

Катя Лебедева

боится корги с ногтями

Страница автора

Flux — нейросеть для генерации картинок по текстовому запросу.

Ее можно запускать локально на своем компьютере, а можно пользоваться через веб-интерфейс. В первом случае у вас будут все возможности нейросети, а во втором — ограниченные разработчиками сервиса.

В сети отмечают, что Flux генерирует изображения высокого качества на уровне Midjourney. И лучше других нейросетей следует промпту. Расскажу, где попробовать Flux, как писать для него запросы и какие результаты можно получить.

Что такое Flux

Flux разработали инженеры Stable Diffusion, в том числе разработчики Робин Ромбах и Андреас Блаттман, после того как в команде произошел раскол. Stability AI столкнулась с внутренними разногласиями: исследователи были недовольны тем, что их технические решения и инновационные идеи ограничивали в пользу коммерческих интересов. Руководство сосредоточилось на монетизации и масштабировании продукта, поэтому несколько ключевых разработчиков ушли из компании.

Stable Diffusion остается популярной нейросетью, но технические и финансовые проблемы Stability AI поставили ее развитие под вопрос. А покинувшие компанию разработчики создали компанию Black Forest Labs, которая выпустила Flux.

Как пользоваться нейросетью Stable Diffusion без навыков программирования

Всего доступно три модели Flux. Каждая подходит для разных задач: от коммерческого использования до быстрого создания картинок на домашнем компьютере. Вот они:

Flux.1 Pro — флагманская модель, предназначенная для коммерческого использования , с самым высоким качеством изображений и точным следованием запросам. Способна генерировать сложные сцены и реалистичные текстуры. Оптимизирована для работы через API на онлайн-платформах. Доступ к ней пока есть только через партнеров Black Forest Labs, таких как Replicate и Fal.ai.
Flux.1 Dev — открытая версия модели, предназначенная для некоммерческого использования . Это оптимизированный вариант Flux.1 Pro. Модель Flux.1 Dev используют для создания LoRA-модулей , чтобы генерировать картинки в своем стиле, чаще всего в аниме-стилистике.
Flux.1 Schnell — самая быстрая версия, которую можно запускать на компьютере локально. Изображения не такие детализированные, как у двух других моделей. Можно использовать как для личных, так и для коммерческих проектов : модель находится в открытом доступе под лицензией Apache 2.0.

Чтобы проиллюстрировать разницу между моделями и сравнить Flux с другими нейросетями, я сгенерировала в них оленя по одному и тому же запросу: «A teal and gold deer with antlers made of tree branches, in the forest, in an art deco style, on a white background, with a colorful collage effect, paper cut-out elements, and a beige color palette, with white trees in winter».

Flux уже успела попасть в скандал. Цензура у нейросети куда ниже, чем у большинства популярных сервисов для генерации изображений. Обычно запрещен NSFW-контент и сцены насилия. Часто ограничивают генерацию реально существующих людей, особенно ныне живущих, и персонажей, защищенных авторским правом. У Flux с этим свободнее, даже если пользоваться общедоступными сервисами. Тут легко сгенерировать знаменитость в провокационной обстановке или обнаженку.

Модели Flux встроены в чат-бот Grok 2, который доступен только обладателям X Premium — платной подписки соцсети X. Пользователи отметили, что на старте там не было этических ограничений, типичных для большинства сервисов. Например, получалось создать детальные изображения реально существующих политиков, персонажей мультфильмов, полуобнаженных людей.

Как нейросети обманывают в интернете: 7 сценариев, с которыми можно столкнуться уже сейчас

Это вызвало скандал: такое запрещено на популярных платформах, в том числе в Midjourney и Dall-E 3 в ChatGPT. Авторы сервисов справедливо опасаются проблем с фейками, обвинений в распространении порнографии.

В ответ на критику Илон Маск, владелец X, заявил, что это будет весело и занимательно. Теперь Европейская комиссия изучает потенциальные нарушения закона о цифровых услугах со стороны X, а британское агентство по вопросам публичной информации Ofcom проверяет соблюдение закона о безопасности в интернете, который включает и проблемы ИИ.

Где можно попробовать Flux бесплатно

Все три модели Flux можно использовать через несколько онлайн-сервисов, но чаще всего платно. Flux 1. Pro в бесплатном доступе мне найти вообще не удалось.

Официально компания-разработчик нейросети Black Forest Labs предлагает тестировать новую модель на сайтах Replicate и Fal.ai. Однако для этого нужен аккаунт на GitHub, а каждый запрос к нейросети нужно оплачивать. Российские банковские карты не сработают.

Также все три модели можно запустить локально на своем компьютере. Пошаговую инструкцию по установке и настройке модели можно найти на ресурсах об ИИ и настройке платформы ComfyUI. Для этого потребуются базовые навыки программирования.

Кроме того, запуск Flux локально требует значительной вычислительной мощности, особенно если используется вместе с большой языковой моделью (LLM). В частности, для эффективной работы требуется GPU уровня NVIDIA A100 или выше.

Я протестировала онлайн-сервисы, которые можно попробовать бесплатно без каких-либо навыков программирования.

Hugging Face. Доступна модель Flux.1 Dev. Бесплатно и быстро — примерно 10 попыток. Потом надо или ждать несколько часов, или покупать платную подписку за 9 $⁣ (821 ₽) в месяц. Вот какие есть настройки генерации:

Seed — можно задать любое число и использовать его, если надо получить изображения на основе одного и того же изображения. При одинаковом seed и запросе генерируются одинаковые картинки.
Width и Height — размеры изображения от 256 до 2048 пикселей. Чем больше разрешение, тем детализированнее картинка, но тем больше времени занимает генерация.
Guidance Scale — определяет, насколько строго модель следует текстовому запросу. При высоких значениях лучше соответствие промпту, но жестче ограничена творческая свобода нейросети.
Number of inference steps — количество шагов, за которые модель генерирует изображение. Больше шагов — лучше качество, но дольше генерация. Подбирать лучше экспериментально для каждой задачи, по умолчанию стоит 28.

Mystic. Доступны модели Flux.1 Dev и Flux.1 Schnell. Создать аккаунт и начать использовать сервис получится бесплатно, но после пяти попыток на счете начнет копиться долг. О том, что в какой-то момент генерации стали платными, никаких уведомлений не появится. По достижении примерно 2 $⁣ (182 ₽) задолженности система попросит добавить в профиль метод оплаты. Российские карты не принимают.

Для обеих моделей можно настроить несколько параметров генерации:

Guidance_scale — определяет, насколько строго модель должна следовать текстовому запросу. Чем выше значение, тем точнее изображение будет соответствовать промпту, но это может ограничить креативность.
Height и width — высота и ширина изображения, можно варьировать от 64 до 1024 пикселей.
Max_sequence_length — ограничивает длину запроса. Если промпт очень длинный, модель будет воспринимать некоторое лимитированное количество информации из него и игнорировать остальное.
Num_images_per_prompt — сколько картинок будет сгенерировано на один запрос.
Num_inference_steps — количество шагов, за которые модель будет генерировать изображение. Чем больше шагов, тем более детализированный результат, но процесс будет длиться дольше.
Seed — число, которым можно пометить конкретную генерацию. Одно и то же значение seed приведет к одинаковым результатам при тех настройках.

При одних и тех же параметрах у меня получались милые картинки с первой же попытки в Flux 1. Dev. А вот Schnell толком приручить не удалось, даже когда пробовала подбирать настройки и менять промпт.

Flux AI Image Generator. Доступна только модель Flux 1. Schnell. Это не официальный сайт сервиса, несмотря на похожее название. Бесплатно можно сгенерировать 100 картинок, в день не более пяти.

Настроек минимум: получится выбрать соотношение сторон и сделать картинку горизонтальной, вертикальной или квадратной. Но и ширина, и высота могут варьироваться лишь от 576 до 1024 пикселей. Еще можно указать качество. Скорее всего, этот параметр работает примерно как количество шагов в других сервисах.

CivitAI. Бесплатно доступна модель Flux.1 Dev. Schnell и Pro — только за деньги, минимальный пакет на 5000 кредитов, которого хватит на пару сотен генераций, стоит 5 $⁣ (456 ₽). Российской картой оплатить нельзя.

Бесплатно при регистрации сервис выдает 100 кредитов. На одну попытку с Flux расходуется 25, но это при 25 шагах и размере изображения 512 × 512 пикселей. Выше качество и больше размер — дороже генерация.

Можно настроить несколько параметров:

Aspect Ratio — соотношение сторон. Можно сгенерировать квадратную, горизонтальную или вертикальную картинку.
CFG Scale — точность следования промпту.
Steps — количество шагов.
Quantity — сколько изображений генерировать за один раз. Но стоит помнить, что если поставить, например, 4, то затраты кредитов тоже вырастут в четыре раза.

NightCafe. Модель неизвестна, но пользователи предполагают, что это Flux 1. Pro. В интерфейсе приходится выбирать какой-либо пресет — то есть использовать модель, которую уже как-то дообучили или настроили. Отказаться от этого шага нельзя.

Впрочем, с выбранным пресетом самого сервиса, NightCafe, результат лучше, чем было по тем же запросам с другими оболочками. Но предсказуемость страдает.

Пока модель новая и сверхпопулярная, бесплатно можно сгенерировать с ее помощью только пять изображений. Потом придется оформлять подписку, которая стоит от 4,79 $⁣ (400 ₽) за 100 кредитов.

Fastflux. На какой модели работает, неизвестно. Судя по мгновенному результату, это Flux 1. Schnell.

Минималистичный интерфейс: только поле для промпта и картинка-результат. Генерирует всегда горизонтальное изображение размером 896 × 512 пикселей. Никаких дополнительных настроек нет. Зато сервис полностью бесплатный.

Как писать промпты для Flux

Правила составления запросов для Flux в целом совпадают с теми, что применяются при работе с другими нейросетями, например Midjourney. Но стоит учитывать, что эта модель очень точно следует запросам.

Flux понимает запросы на основных европейских языках, но не работает с китайским, русским и десятками других. Воспользуйтесь нейросетевым переводчиком DeepL, чтобы перевести промпт с русского на английский.

10 лучших онлайн-переводчиков с нейросетями и без: от понимания контекста до озвучки видео

Вот принципы составления запросов для Flux.

🖼️ Описывайте сцену детально. Flux лучше всего работает с четкими и детализированными промптами. Например, вместо «кошка» лучше написать «рыжая кошка с зелеными глазами, сидящая на подоконнике, за окном осенний пейзаж».

✍️ Используйте структуру «объект + детали + фон + стиль». Так нейросеть лучше поймет ваши ожидания. Укажите все важные для вас нюансы: кто или что должно быть в центре изображения, какие элементы должны присутствовать, одежда, аксессуары, выражения лиц, где и когда происходит действие.

Задайте художественный стиль или настроение или в свободной форме опишите общее впечатление от картинки: реалистичная, фэнтезийная, мультяшная, мрачная. Пример:

Главный объект — щенок золотистого ретривера, golden retriever puppy.
Детали — играет в саду, носит красную бандану, playing in a sunlit garden with colorful flowers around, wearing a red bandana.
Фон и окружение — цветы, деревянный забор, мягкий солнечный свет, длинные тени, wooden fence in the background and soft, warm sunlight casting long shadows.
Стиль и тон — реалистичный, in a realistic style.

Итого: «A golden retriever puppy playing in a sunlit garden with colorful flowers around, wearing a red bandana, with a wooden fence in the background and soft, warm sunlight casting long shadows in a realistic style».

👨‍🎨 Ссылайтесь на стили, художников или эстетики. Flux хуже работает со стилями, чем Midjourney, но референсы все же помогают направить модель в нужное русло.

Cottagecore или Dark Academia: что такое интернет-эстетика и как выбрать свою

💡 Обратите внимание на освещение и атмосферу. Включите в промпт указания на тип освещения, можно написать и впечатление от сцены: natural lighting, artificial lighting, soft lighting, contrasting lighting, cozy atmosphere, melancholic atmosphere, dynamic atmosphere.

📸 Прописывайте технические детали. Это необязательно, но с Flux и его точным следованием промпту этот прием как никогда эффективен. Можно включить в запрос модель камеры, угол съемки, объектив, глубину резкости, фокус и многое другое.

Например, после описания сцены можно добавить такую фразу: «A shot with a 24mm wide-angle lens, with shallow depth of field, focus on the street vendor’s hands, background slightly blurred». То есть снимок с широкоугольным объективом 24 мм с малой глубиной резкости, фокус на руках уличного продавца, фон слегка размыт.

Вот несколько возможных вариантов:

камера — Canon EOS 5D Mark IV, Nikon D850, Sony A7R IV, Fujifilm X-T4, Panasonic Lumix GH5;
угол съемки — eye-level, low angle, high angle, bird’s-eye view, worm’s-eye view, dutch angle;
объектив — wide-angle lens, telephoto lens, macro lens, fisheye lens, prime lens;
диафрагма — f/1,4, f/2,8, f/5,6, f/8;
iso — iso 100, iso 400, iso 1600, iso 3200;
глубина резкости — shallow depth of field, deep depth of field;
скорость затвора — 1/1000 sec, 1/250 sec, 1/30 sec;
формат кадра — 16:9, 4:3, 1:1, 2.35:1;
тип освещения — natural lighting, artificial lighting, soft lighting, hard lighting, backlighting;
текстура — grainy texture, smooth texture, matte finish, glossy finish.

🍒 Сочетайте разные стили, сюжеты и концепции. Тайная вечеря с роботами и голографическими дисплеями, цветущая вишня в разрушенном городе, противопоставление эмоций — Flux хорошо справляется с таким.

📸 Пробуйте разные ракурсы и перспективы. Так можно создать более интересные изображения. Например:

вид с уровня земли (ground-level perspective) на пикник, трава закрывает большую часть сцены, фигурки людей видны вдалеке;
кадр от первого лица (first-person perspective) из кабины пилота самолета, с руками на штурвале и панелью приборов перед глазами;
панорамный вид снизу вверх (worm’s-eye view) на огромные деревья в лесу или на небоскребы в городе;
панорамный вид сверху вниз (overhead или bird’s-eye view) на толпу людей на улице или на огромный стол с различными блюдами;
искаженная перспектива (tilted angle или Dutch angle) на улице с легким наклоном, как если бы камера была слегка перекошена;
вид сквозь объект (through-the-object perspective), например через замочную скважину, стекло, витраж, или листья дерева, которые частично закрывают основной объект;
взгляд из-за плеча (over-the-shoulder view), как будто зритель видит то, что видит герой;
съемка изнутри (inside-out view) авто через лобовое стекло на дорогу;
отраженная перспектива (reflected perspective) в зеркале, воде или на стекле.

🔬 Экспериментируйте. Иногда требуется несколько попыток, чтобы найти формулировку, которая даст нужный результат. Начинайте с простых запросов и постепенно добавляйте детали, чтобы увидеть, как это влияет на итоговое изображение.

Вот несколько примеров промптов, составленных по этим правилам. Все генерации — с первой попытки, модель Flux 1. Dev.

Если ничего не получается, поможет генератор промптов для Flux. Он сформулирует детальный запрос по короткой подсказке, улучшит с помощью Prompt Enhancer, пропишет параметры.

Плюсы и минусы Flux

✅ Фотореализм и детализация. Нейросеть может точно воспроизводить сложные текстуры, свет и тени, что делает ее идеальным инструментом для задач, требующих высокой детализации.

✅ Точное следование промпту. Одно из ключевых преимуществ Flux. Это необходимо в проектах, где требуется получить конкретный результат. Нейросеть не добавляет от себя что-то для красоты или чтобы лучше связать объекты, если не поставить креативность повыше. Например, общение жабы с гадюкой будет именно общением жабы и гадюки, а не двух усредненных гибридов, как это часто бывает, особенно в старых моделях.

✅ Почти безупречная работа с текстом на картинках. Даже длинные надписи на английском языке Flux воспроизводит без ошибок в большинстве случаев. Правда, пока это работает только с латиницей. Можно создавать плакаты, писать цитаты и придумывать вывески.

✅ Гибкость и кастомизация. Открытая архитектура модели позволяет пользователям настраивать ее под свои нужды и адаптировать для специфических задач. То есть создавать LoRA хоть под аниме, хоть под корпоративный дизайн.

🔴 Сложности с подражанием стилям. Одна из самых сильных сторон Midjourney, тут, к сожалению, проседает. Генерировать картинки в стиле Тарковского или Ван Гога не получится: Flux тренировали на фотореалистичных изображениях. Благодаря этому модель хорошо рисует детализированные сложные сцены, но это ее и ограничивает.

🔴 Меньшая креативность в интерпретации промптов. Flux иногда критикуют за недостаточную креативность при обработке абстрактных или фантазийных запросов. Это оборотная сторона точного следования промпту — буквальное его исполнение.

🔴 Сложно начать пользоваться. Предполагается, что Flux будут использовать локально на собственных компьютерах, а для этого нужны некоторые технические навыки.