Я профессионально генерирую изображения в нейросети и считаю, что это тоже искусство

Я профессионально генерирую изображения в нейросети и считаю, что это тоже искусство

Рассказ читателя
42

Это история из Сообщества. Редакция задала наводящие вопросы, бережно отредактировала и оформила по стандартам журнала.

Аватар автора

Лев Переулков

стал мастером нейросетей

Страница автора

Я уже давно занимаюсь виральными проектами в интернете.

В 2015 году мы с другом придумали проект 2D Among Us и вставляли персонажей из аниме, мультфильмов и кино на фотографии из России. Внезапно наше творчество стало популярным — о нас даже писали интернет-издания вроде TJournal.

Позже мы основали схожий проект MXD, в котором скрещивали поп-культурные и исторические образы с реальностью. Например, показывали, как мог выглядеть провинциальный киберпанк, или накладывали супрематические композиции поверх обычных фотографий.

Одна из работ 2D Among Us
Цифровой коллаж MXD

Для меня это было чем-то вроде публикации мемов. А журналисты писали обо мне, используя громкое слово «художник». Из-за этого я и начал думать о себе как о художнике и даже изучать современное искусство.

Тогда же мои работы стали попадать в художественные галереи. К примеру, их выставляли в МАММ и на лондонских станциях Паддингтон и Виктория в рамках крупного арт-проекта.

Как я познакомился с нейросетями

Три-четыре года назад моя подруга, ML-программистка, постоянно рассказывала мне о диффузионных нейросетях. Я сразу заинтересовался машинным обучением, но тогда с нейросетями работали лишь «продвинутые пользователи ПК» и владельцы очень мощных компьютеров.

В августе 2022 года у Stable Diffusion состоялся публичный релиз. За несколько лет мы дошли до точки, когда нейросеть можно развернуть одним кликом на ноутбуке с бюджетной видеокартой на 8 Гб памяти. Я сразу решил установить нейросеть, хотя тогда она работала только через командную строку. С тех пор Stable Diffusion обросла веб-интерфейсами, расширениями и новыми методами работы. Например, в феврале 2023 года вышел инструмент ControlNet, с помощью которого можно копировать позу человека с кадра, создавать карту глубины изображения или очертания предметов.

Так выглядит локальный запуск Stable Diffusion
Так выглядит локальный запуск Stable Diffusion
Интерфейс Stable Diffusion в одной из поздних сборок
Интерфейс Stable Diffusion в одной из поздних сборок

А еще со временем появилась возможность дообучать нейросеть самостоятельно. Это важный инструмент для художников и дизайнеров, ведь с его помощью можно генерировать изображения в определенном стиле. Осенью 2022 года я впервые его использовал — для теста взял фотографии кота друга, которого зовут Кокос.

На обучение модели я потратил три-четыре попытки — на каждую уходит около часа. Проблемы возникали из-за того, что я тратил на это слишком много или, наоборот, слишком мало времени. А еще брал однотипные фотографии кота.

Почти на всех фотографиях Кокос лежит
Нейрококосы

Инструкцию я нашел на «Ютубе», но в процессе корректировал настройки. Дело в том, что мы до сих пор точно не знаем, как нейросети работают внутри. Лишь методом проб и ошибок мне удалось нащупать баланс, когда нейросеть генерирует объект и экспериментирует со стилем. Так я пришел к выводу, что модель работает лучше, если уменьшить датасет.

С релиза Stable Diffusion я обучил уже девять собственных моделей. Допустим, если мне не хватает русской эстетики, я могу ее добавить. Мой ноутбук с видеокартой GeForce 3080 RTX 16 Гб справляется с дообучением всего за полтора часа — для этого достаточно отобрать от 20 до 40 картинок и правильно описать их.

Что я генерирую в Stable Diffusion

Я стараюсь думать о нейросетях как о новом медиуме. Раньше люди не могли моментально воссоздавать фотографии: для этого приходилось тратить недели на кропотливую работу в 3D. Способность генерировать изображения — огромный шаг в развитии культуры.

Диффузионные нейросети многое говорят о нашей культуре, памяти и мышлении. Они тоже создают образы из шума — как ребенок, который видит лица в обоях с цветочками. Нейросети могут усреднить эстетику, визуализировать наши мысли и изменить то, чем мы вдохновляемся.

На мой взгляд, Stable Diffusion на голову выше других нейросетей. Midjourney дает мало доступа к самому процессу, поэтому и генерации там имеют свой выраженный стиль — красивый, но скучный. Там легче сгенерировать красиво какой-нибудь сюрреалистичный пейзаж или эклектичного робота, а вот обучить конкретному символу или элементу невозможно. Там я генерировал мало, потому что мне даже не хотелось привыкать к инструменту с закрытым кодом. Другое дело — Stable Diffusion. Это нейросеть с открытым кодом, поэтому инструментов для самовыражения здесь намного больше. Обучение и кастомизация — ее главные преимущества.

Вот несколько серий, которые я создал в нейросетях.

Усредненная Россия на «пленочных» снимках. В «Нейрогалерее» Т⁠—⁠Ж я опубликовал серию пленочных кадров, созданных под вдохновением от снимков известных фотографов — Елены Чернышовой, Георгия Пинхасова и Александра Гронского. Она называется «Это все так знакомо, но этого никогда не было».

Раньше я занимался фотографией — изучал теорию, снимал для местного издания и для себя. Благодаря опыту отобрал неплохой датасет для обучения нейросети — даже тогда я напрямую влиял на результат. К примеру, брал свой кадр с деревянным зданием — это давало общее направление визуальной эстетике. Думаю, художники всегда мечтали о таком контроле за процессом.

Слева — мой снимок из датасета, справа — генерация
Слева — мой снимок из датасета, справа — генерация
Для 10 итоговых картинок я сгенерировал сотни и тысячи кадров
Для 10 итоговых картинок я сгенерировал сотни и тысячи кадров

Во время работы я понял, что нейросеть плохо воссоздает стиль Александра Гронского: он фотографировал пейзажные снимки с мелкими деталями. Лучше всего у нее получается что-то камерное. Например, характерная продавщица за прилавком или заснеженная комната. Приходится корректировать желания из-за ограничений модели, так что, на мой взгляд, здесь появляется элемент соавторства.

Благодаря опыту создания цифровых коллажей получилось доработать изображения. Из нескольких тысяч генераций я отобрал лучшие и подправил детали: изменил цветокоррекцию, подправил анатомию людей, дорисовал следы на снегу. Так что в серии есть и мой отпечаток.

Мы живем в спальных районах, где на каждом углу стоят панельные здания. Об этом ничего не скажет американская культура. Людям нужно как-то осмыслить фундаментальные вещи рядом: архитектуру, политику, религию и эстетику. Думаю, поэтому художники и музыканты вдохновляются постсоветской меланхолией и культурой девяностых.

Главное — я добился идеи, которую нельзя было сделать без нейросетей. Мне было важно, чтобы фотографии оставались вымышленными, не привязанными к реальности.

Изображения из серии «Это все так знакомо, но этого никогда не было»
Изображения из серии «Это все так знакомо, но этого никогда не было»
Изображения из серии «Это все так знакомо, но этого никогда не было»

VHS-записи. Недавно дообучил модель на семейных VHS-записях — эта серия оказалась для меня самой личной. Я просмотрел 15 Гб архивов, а отобрал всего лишь 60 кадров. У меня было две цели: скопировать эстетику старых записей, а еще воссоздать интерьеры и моду ушедшей эпохи.

Модель получилась интересной. От разрешения картинки менялся стиль — чем оно меньше, тем сильнее VHS-эффект. Из-за артефактов и глитчей сгенерированные изображения выглядят даже убедительнее, чем обычные кадры. Правда, я не учел при сборе датасета текст и индивидуальные особенности камеры, так что модель всегда добавляет черную полосу внизу, а иногда — вымышленные даты и случайные цифры.

Мне кажется, это тоже что-то новое — эдакий взгляд в альтернативную реальность, где машина создает ложные воспоминания, опираясь на реальный материал. Считаю, что уже через десять лет наша визуальная культура расширится — кардинально изменится то, как мы выражаем идеи.

Часть реального датасета со мной — записи детского утренника
VHS-генерации

Почему мне кажется, что нейросети — не воровство

Нейросети в одних руках — бездумный автомат по воспроизводству аниме-картинок, в других — полезный инструмент, чтобы донести новую идею. От цели меняется роль человека, который ее использует.

К примеру, существует разная степень влияния на генерации. В своих сериях я контролирую многое: тщательно отбираю картинки из тысячи вариантов, объединяю их и дорабатываю. Процесс генерации иногда напоминает мне съемку: ты тщательно ищешь место, всматриваешься в детали, выжидаешь нужный момент. Только все это перед ноутбуком. Я вижу здесь больше свободы и меньше рутины, ведь мне не нужно моделировать, текстурировать и собирать образ.

Набросок
Набросок
Генерация
Генерация
1/2
Набросок

Проще говоря, другой человек по схожему запросу получил бы абсолютно другой результат, ведь он обладает уникальным опытом, мировоззрением и вкусом. Но не все это понимают.

Однажды я опубликовал в «Твиттере» экспериментальные генерации собственной модели, которую обучил на картинах московских концептуалистов. В ответ получил десятки реплаев с критикой: меня обвиняли в воровстве. Хотя разница между датасетом и результатом колоссальная, ведь я пытался добиться уникального результата.

В датасете не было церкви с вопросительным знаком или звезд на лице
В датасете не было церкви с вопросительным знаком или звезд на лице
1/2
В датасете не было церкви с вопросительным знаком или звезд на лице
В датасете не было церкви с вопросительным знаком или звезд на лице

Я считаю, что нейросеть можно обучить набору приемов или эстетике, но не конкретному стилю. Она, как и живой человек, тренируется на чужом опыте, но в итоге создает что-то новое.

Плагиатом можно считать только то, что выглядит как нечто откровенно вторичное и ворованное. Фразы «сгенерировано нейросетью» недостаточно для обвинений.

Почему я думаю, что нейросети не заменят человека

Я уверен, что нейросети повлияют на рынок труда в тех сферах, где автор не имеет значения. Посмотрите вокруг — нас окружает дизайн без имени: узор на обоях, орнамент на подушке, картинка на упаковке хлопьев, иллюстрации в простой детской книжке и некоторые обложки к материалам Т⁠—⁠Ж.

Конечно, у каждого из этих изображений есть автор, но ведь нам важен итог его работы, а не контекст. Иллюстрации детских книг должны веселить ребенка, объяснять ему сюжет и учить — не больше.

Обложки для материалов Т⁠—⁠Ж, которые я сгенерировал в нейросетях
Обложки для материалов Т⁠—⁠Ж, которые я сгенерировал в нейросетях

Рынок непременно выберет нейросети, если они окажутся эффективнее. Только художники и иллюстраторы никуда не уйдут. Все равно нужен будет человек, который сумеет сформулировать запрос и отобрать лучшие генерации.

Конечно, конкуренция усилится, а где-то произойдет полная автоматизация. Но это не касается тех сфер, где важен бренд.

Есть сотни качественных репродукций Рембрандта, но бесценны только оригиналы.

Когда мы стоим перед настоящей картиной, мы держим в голове биографию автора и сотни лет истории, поэтому наше восприятие меняется.

Так что нейросети повлияют на рынок, но точно не заменят человека и личность. Нечего бояться тем, у кого есть настоящий опыт, интересные концепции и собственный подход. Между рассказом человека, который побывал в тюрьме и оказался на грани смерти, и искусственного разума, который знает тему только по книгам, я выберу первое.

Будущее нейросетей

Недавно один из разработчиков Stable Diffusion написал, что мы находимся только в начале пути. Он сравнил происходящее с первым поколением Айфона. В следующие десять лет нейросети продолжат развиваться и менять культурный ландшафт.

Adobe уже использует пользовательский контент на Behance для машинного обучения. Скорее всего, в какой-то момент они встроят диффузионные нейросети в свои программы. Они станут нормой и обычным инструментом — таким же, как штамп в Photoshop.

Мои друзья-художники используют плагины на основе Stable Diffusion и не рассказывают об этом аудитории. Это не значит, что так будет поступать каждый. Останутся и те, кто продолжит рисовать все от руки, но свой метод работы им придется превратить в некий жест, акцию — добавить контекст и открыто заявить о соревновании с нейросетью.

Схожий процесс человечество уже проходило с фотографией. Частично из-за этого появился импрессионизм — стиль в живописи, где уже не так важна проработка деталей. На первое место в ней выходят субъективный взгляд, эмоции и личность автора.

Нейросети без самоосознания останутся только инструментом, который убирает рутину и сокращает путь от концепции к реализации. Вряд ли неолуддиты и противники технологии остановят прогресс — свое слово скажет рынок. Человечество никогда откажется от того, что может упростить жизнь.

Лев ПереулковКак вы считаете, нейросети воруют чужое творчество?
    Вот что еще мы писали по этой теме