Как я полюбил Midjourney и теперь делаю картинки, которые расходятся по всему интернету

Александр Доброкотов — о том, как найти через ИИ-искусство собственный стиль и аудиторию
39
Как я полюбил Midjourney и теперь делаю картинки, которые расходятся по всему интернету
Аватар автора

Александр Доброкотов

рассказал о цифровом арте

Страница автора
Аватар автора

Даша Лейзаренко

задавала вопросы

Страница автора

Цифровой художник превращает «Бригаду» в аниме, а «Простоквашино» — в американский ситком.

Он выпустил уже десяток проектов со сгенерированными в нейросетях картинками. На канал Доброкотова Ai Molodca подписаны 17 тысяч человек, но гораздо чаще его работы можно встретить в крупнейших пабликах, соцсетях, СМИ и вообще по всему рунету. Большинство изображений художник генерирует в Midjourney. Нейросеть не требует навыков программирования или глубоких познаний. Но требуется много времени и сил, чтобы подобрать запросы и сформировать собственный узнаваемый стиль.

Мы поговорили с Александром Доброкотовым о том, как он познакомился с нейросетями и придумал авторский метод генерации картинок, которым пользуются другие ИИ-художники. И почему всем нужно подружиться с нейросетями.

Как я познакомился с нейросетями

Я работаю креативным директором в рекламном агентстве DADA, управляю командой и стараюсь делать так, чтобы люди не ненавидели рекламу. При этом всегда занимался личными творческими проектами: иллюстрацией, блогами, видео, арт-пабликами.

Мои работы 2012 года
Мои работы 2012 года
Мои работы 2012 года
Мои работы 2012 года

Реализация постоянно менялась, потому что идея для меня всегда была важнее формы. Сейчас же наступила новая эпоха креативности: нейросети дали идеальный инструмент для реализаций идей в любом виде.

Работа в рекламе обязывает быть в авангарде культуры и технологий. Поэтому еще в 2015 году, когда Google выпустил DeepDream, я преобразовал несколько картинок в сюрреалистичные фракталы из собак — больше сервис ничего не умел. После этого забыл про нейросети на несколько лет, лишь иногда почитывал информацию о новинках.

Пример работы DeepDream
Пример работы DeepDream

В январе 2022 года в телеграм-канале Denis Sexy IT я увидел работы, сгенерированные с помощью Dall-E. Это первая нейросеть от компании OpenAI, которая умела «рисовать» качественные картинки по текстовому описанию.

Попробовать нейросеть тогда было нельзя, она находилась в закрытой бете. Но даже демонстрация возможностей — превращение текста avocado armchair в авокадное кресло — выглядела настоящей магией.

Авокадное кресло в Dall-E
Авокадное кресло в Dall-E

Стало понятно, что картиночные нейросети взорвут интернет, но я не предполагал, что это произойдет так быстро. В апреле появилась и завирусилась модель Dall-E mini, которая генерировала девять не очень качественных, но узнаваемых картинок.

Плохое качество и доступность понравились интернету. Люди помчались генерировать Око Саурона с газетой, пиццу в посудомоечной машине, Карла Маркса на премии MTV. Тогда и сделал канал, чтобы выкладывать свои генеративные эксперименты и учиться промптингу.

Чебурашки в Dall⁠-⁠E mini. Везде по тексту источник: Александр Доброкотов, канал Ai molodca
Чебурашки в Dall⁠-⁠E mini. Везде по тексту источник: Александр Доброкотов, канал Ai molodca
Чебурашки в Dall⁠-⁠E mini. Везде по тексту источник: Александр Доброкотов, канал Ai molodca
Чебурашки в Dall⁠-⁠E mini. Везде по тексту источник: Александр Доброкотов, канал Ai molodca

Летом 2022 года я получил доступ ко второй версии Midjourney. Модель была на закрытом бета-тестировании, и про нее знали лишь немногие энтузиасты. Качество, мягко говоря, было далеко от того, что спустя больше полугода демонстрирует пятое поколение, но в моменте это было потрясающе.

Я тестировал возможности нейросети и сделал свой первый генеративный проект: представил, как бы выглядел сочный бургер в исполнении известных художников вроде Винсента Ван Гога, Ивана Шишкина, Рене Магритта и других. Серия картинок разошлась по пабликам и попала в СМИ.

Уже с третьей версией Midjourney хитом стала подборка «Нейропанельки». Тестируя возможности, я представил, как выглядели бы дома в самых разных стилях, не только художественных. Сгенерировал пиксельные, вафельные, шоколадные, киберпанковые, адские панельки. И снова попал в новости: об этом писали РБК и даже крупный англоязычный развлекательный сайт BoredPanda.

Ковер
Рококо
Миядзаки
Киберпанк
Рентген
Вафля
Шоколад
Айвазовский
Гигер
Ад

Почему из всех нейросетей я выбрал Midjourney

Среди сервисов для генерации картинок есть два очевидных лидера — Midjourney и Stable Diffusion. Первая — самая удобная, вторая — самая разнообразная и настраиваемая, еще и бесплатная.

Midjourney довольно быстро превратилась в феномен из-за минимального порога вхождения и постоянно растущего качества. Конечно, во многом это заслуга авторов контента. Креативщик-трендсеттер делает вирусный прикол и попадает в новости с заголовком «Midjourney показала…». Это видят люди и думают: «Хочу так же!» И так по экспоненте. Сейчас, когда бесплатные генерации прикрыли, порог вхождения стал сложнее, но этот медийный поезд уже не остановить.

Я получил доступ к закрытой бете модели Stable Diffusion 1.4 примерно одновременно с ростом популярности Midjourney. Сидел в чате энтузиастов канала «Нейроэстетика» и восхищался вместе со всеми. Midjourney на тот момент выдавала по большей части высокий уровень абстракции, да еще и ограничивала в тестовых попытках.

Stable Diffusion же уже тогда была бесплатной и с кучей тонких настроек. Сейчас же это мощнейшая открытая модель, способная при определённом шаманстве закрыть все визуальные потребности. Обучить нейросеть на стиле или объекте, стилизовать видео и сделать анимацию, ретушировать изображения, задать позы, встроить возможность генерации в «Фотошоп» или «Фигму» — все это возможно благодаря множеству плагинов, созданных талантливыми энтузиастами.

Единственный минус — порог вхождения. Непонятно, куда бежать и что нажимать. Про Stable Diffusion пишут везде, но при этом нигде не говорят, как ей пользоваться. Весь инструментарий собран только в интерфейсе Automatic1111 и его аналогах. Но новичку, который ожидает кнопку «Сделать красиво», придется попотеть, чтобы туда попасть и изучить все тонкости.

Если сравнивать две нейросети, то Midjourney — это Mac, а Stable Diffusion — Linux.

В Midjourney все просто и понятно. Нужно только зарегистрироваться в Discord и разобраться там с системой каналов. Все происходит в общих чатах, и если что-то непонятно, можно подсмотреть, что генерируют другие участники сообщества. Единственная сложность — оплатить из России.

Промптинг тоже различается. Midjourney и есть та самая кнопка «Сделать красиво». Нейросеть сразу генерирует картинку с «украшательствами», уродливости добиться там сложно, даже если делать это специально. Даже примитивный промпт из нескольких слов сработает хорошо.

А вот Stable Diffusion — чистый лист. С простым запросом и базовой моделью получить достойный результат сложно. Нужно либо пользоваться одной из дополнительных моделей, заточенной, например, на фотореализм, либо дорабатывать промпты.

Сгенерировал героев российских мемов в Stable Diffusion
Сгенерировал героев российских мемов в Stable Diffusion
Сгенерировал героев российских мемов в Stable Diffusion
Сгенерировал героев российских мемов в Stable Diffusion
Сгенерировал героев российских мемов в Stable Diffusion
Сгенерировал героев российских мемов в Stable Diffusion

Большую часть творческих проектов я реализовал в Midjourney, так как она идеально удовлетворяет критериям качества и скорости. Однако Stable Diffusion более гибка, поэтому я использую ее в некоторых работах.

Одна из моих любимых функций нейросети — обучение. Я несколько раз обучал ее на своих фотографиях, карательной кулинарии и ЖЭК-арте. Это открывает бесконечные возможности для экспериментов и «майонезных змеек» в стиле Клода Моне.

Карательная кулинария в Stable Diffusion
Карательная кулинария в Stable Diffusion
Карательная кулинария в Stable Diffusion
Карательная кулинария в Stable Diffusion
Карательная кулинария в Stable Diffusion
Карательная кулинария в Stable Diffusion

Как обучить Stable Diffusion

Обучение Stable Diffusion не слишком сложное, но с нюансами. Все мы обучались, когда использовали приложение Lensa и генерировали себе аватарки. Есть два пути:

  1. Через интерфейс Automatic1111. Это бесплатно, но сложно. Требуется мощный компьютер или Google Collab. В интернете уже есть множество обучающих материалов.
  2. Через сервис Astria. Это легко, но платно. За несколько долларов вы можете обучить Stable Diffusion, скачать полученную модель и использовать ее в Automatic1111 или любом другом удобном интерфейсе. Для оплаты необходима международная банковская карта.

Dall-E 2 могла бы стать потенциальным конкурентом для двух главных нейросетей. Она появилась до того, как Midjourney и Stable Diffusion стали широко обсуждаться, и по качеству генерации опережала свое время. Но, к сожалению, модель проиграла в медийной гонке. Она долго оставалась в режиме закрытого тестирования и упустила момент, когда такие сервисы стали интересны большой аудитории. Поэтому о Dall-E 2 говорят не так много, как о Midjourney или Stable Diffusion, хотя она также весьма неплоха, особенно функция Outpainting.

Однако модель была интегрирована во все сервисы Microsoft. Например, в Bing картинки генерируются с помощью Dall-E 2.

Как я нашел свой стиль

Я вырос в 90-е, когда новое западное танцевало со старым советским. Поэтому в моем культурном коде панельки, ковры и гопники сосуществуют с фильмами французской новой волны, аниме и Арнольдом Шварценеггером. Это смешение и отражается в творчестве.

Midjourney с четвертой версии как раз позволяет смешивать образы и стили за счет соединения нескольких изображений. На моем канале даже есть рубрика «мешалка», где я смешиваю котов с хлебом, Гигачада со Шреком и сыр с колбасой. Несмотря на то что у меня получаются шуточные результаты, это потрясающий инструмент. Он на фундаментальном уровне отражает суть креативности: соединять то, что никто раньше не соединял.

«Осторожно, модерн!»
«Ранетки»
«Дальнобойщики»
«Счастливы вместе»
«Каламбур», сегмент «Крутое пике»
«Поле чудес»
«Метод»
«Моя прекрасная няня»

Зачастую я использую картинки-референсы, потому что героев советской и постсоветской поп-культуры в датасете Midjourney, конечно же, нет. Западные мемы и знаменитости генерируются легко, но нарисовать по текстовому запросу Якубовича или голубя из покрышек не получится.

Ностальгия хорошо работает. Сейчас, когда мир летит в ад, людям особенно хочется вернуться к понятному и привычному. Узнаваемые образы работали всегда, но сейчас, мне кажется, есть дополнительный спрос на это.

Нейро⁠-⁠ЖЭК⁠-⁠арт
Нейро⁠-⁠ЖЭК⁠-⁠арт
Нейро⁠-⁠ЖЭК⁠-⁠арт
Нейро⁠-⁠ЖЭК⁠-⁠арт
Нейро⁠-⁠ЖЭК⁠-⁠арт
Нейро⁠-⁠ЖЭК⁠-⁠арт

Идеи можно придумывать по-разному, есть множество креативных методик, которые я использую в работе. Для генерации картинок подходит простая техника 3B: bathroom, bath и bed. Это три места, где обычно скучаешь и где нет внешних стимулов, которые бы занимали голову. Скучающий мозг в пассивном режиме начинает соединять разные концепции, образы и идеи. Так рождаются новые. Поэтому смело скучайте, это продуктивно. Но только без телефона.

На один проект уходит примерно четыре дня, но все зависит от сложности идеи. Самым трудным было «Простоквашино» в стиле ситкома. До этого я превращал сериалы с людьми в аниме, а здесь нужно было попробовать сделать наоборот: из мультфильма получить реалистичное шоу в стиле 80-х.

«Простоквашино» в стиле американского ситкома

Midjourney, в отличие от Stable Diffusion, сложно контролировать, поэтому верный способ направить нейросеть — использовать скетчи. В большом мире продакшена для кино и игр создаются концепт-арты. В Midjourney можно точно так же отдельно генерировать персонажей, одежду, сетапы, а потом использовать это как референсы.

Как генерировать по методу глубокого референса

Метод глубокого референса позволяет генерировать персонажей, которых «не знает» Midjourney. Вот как это сделать:

  1. Возьмите картинку с героем и вставьте ссылку в Midjourney. Это будет основа запроса.
  2. После ссылки напишите запрос, который описывает вашу картинку. Например, если на ней герой сидит на берегу реки, так и пишите: «A man sitting near river». Опишите его внешность, одежду, особенности и другие черты, которые важны для образа.
  3. Выберите понравившуюся картинку и увеличьте разрешение.
  4. Добавьте в новый запрос оригинальную и сгенерированную картинки, а также текст промпта. Запустите генерацию еще раз.
  5. Исправляйте детали в текстовом запросе, пока не добьетесь нужного результата.

Подробнее об использовании метода с примерами смотрите в моем ролике на «Ютубе».

Даже при использовании глубокого референса возникают проблемы. К примеру, на аниме-Парфенова ушло 50 итераций. Мне нужны были зеленые шкафы на фоне из шоу «Намедни» на НТВ, а Midjourney красила в зеленый все подряд: одежду, лицо, волосы. Это решается только методом проб и ошибок.

Аниме-Парфенов и оригинальный Парфенов
Аниме-Парфенов и оригинальный Парфенов
Неудачные генерации

Для одного проекта я генерирую 200—400 изображений, а на одну картинку уходит 20—50 итераций. Я долго выбираю: мог бы остановиться на приемлемом варианте, но всегда подкручиваю и стараюсь добиваться идеала.

В «Фотошопе» стараюсь ничего не дорисовывать, но иногда приходится. Например, когда создавал «Тайну третьей планеты» в стиле «Звездных войн», не мог даже близко сгенерировать каноничного Громозеку, потому что нейросеть не понимает концепции существа, похожего одновременно на слона и осьминога. Пришлось дорисовывать недостающие руки.

У подписчиков в тематическом челлендже тоже не получилось: Громозеки просто невозможно добиться от Midjourney.

«Тайна третьей планеты» в стиле «Звездных войн»

Что будет дальше

Мы на сверхскоростях влетаем в новую эпоху ИИ, и нас ждет много как прекрасного, так и не очень. Например, постправда. Раньше текстовые fake news были проблемой. Теперь к ним добавляются генеративные суперреалистичные фото: тот же папа римский в пуховике Balenciaga. Прибавьте сюда доступные технологии клонирования голоса, дипфейки и людей с плохими намерениями.

Пока пользователи генерируют приколы, но, мне кажется, рано или поздно произойдет очень неприятный инцидент с использованием генеративного контента, который может запустить движение за маркировку всего ИИ-контента в интернете.

Уже сейчас иногда трудно понять, что реально, а что нет. Недавно заказал рекламу своего канала на щите в Урюпинске, а некоторые подписчики подумали, что это генерация. К щиту даже пришли люди, сфоткались рядом, а им пишут: «Да это тоже генерация по запросу: „Girl standing in front of billboard, purple hair“».

Реклама моего канала на билборде в Урюпинске
Реклама моего канала на билборде в Урюпинске

В этой сфере правовое поле развивается медленно, как черепаха, гоняющаяся за зайцем, но намечается определенный тренд. Например, Stability AI столкнулась с судебными исками за использование контента для обучения без согласия. А Adobe движется в сторону «экологичности», обучая Firefly с согласия авторов и выплачивая роялти.

Мне было бы приятно, если бы я был известным иллюстратором и мои работы попали в датасет, а в промптах писали by Dobrokotov вместо Greg Rutkowski. Но здорово и правильно, когда есть выбор: использовать твои работы для обучения или нет. Впрочем, это все на корпоративном уровне. Если мы говорим про Stable Diffusion и любые открытые модели, то их можно обучить на чем угодно, даже на надписях в подъездах.

Картиночные нейросети все еще не идеальны, но почти достигли потолка. Реалистичность Midjourney поражает, а Stable Diffusion позволяет обрести полный контроль над результатом. Однако массовой аудитории все еще сложно с ними обращаться, поэтому востребованы более дружелюбные интерфейсы, а главное — интеграции в существующие и привычные экосистемы, как это делают Adobe с Firefly и Google с текстовыми моделями.

2023 год будет посвящен быстрому развитию генеративного видео и 3D-моделей, как это было с картинками в прошлом году.

Многие переживают, что нейросети заменят людей. Но это вряд ли случится.

Тут стоит ожидать другой тенденции: если не пользуешься ИИ, проиграешь конкуренту, который владеет нейросетями.

Если художник рисует маслом в подвале для души, он может ничего не изучать и быть счастливым. Но если вы работаете в коммерции иллюстратором, копирайтером или креативщиком, умение обращаться с нейросетями станет гигантским конкурентным преимуществом.

В работе мы постоянно используем нейросети: создаем сториборды, раскадровки, презентации, дизайн, тексты. Еще в прошлом году, когда все только начиналось, мы вели соцсети бренда Epica с помощью нейросетей. Теперь открыли специальный отдел и разрабатываем ИИ-проекты и продукты. Владение ИИ — это новая норма. Капитализм расставляет все точки над i: эффективные специалисты получат преимущество. Не стоит бояться, нужно учиться.

Мы вступаем новую эпоху, в которой креативность, идеи и концепции станут определяющими. Ценность внешней формы теряет свою важность, так как с помощью ИИ каждый может ее создать. Важность уникального авторского видения и эмоционального интеллекта возрастает.

Представьте себе фильм с потрясающей графикой, но без захватывающего сюжета и интересных персонажей. Насколько быстро он надоест? Поэтому развивайте креативность и концептуальное мышление. В будущем эти навыки будут наиболее ценными, наряду со способностью быстро учиться, не зацикливаясь на старых знаниях.


Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

Александр ДоброкотовЕсть любимая картинка в интернете, которую нарисовала нейросеть? Покажите в комментариях: