
Kandinsky: как пользоваться нейросетью для генерации картинок и видео от Сбера
Kandinsky — доступная и популярная в России нейросеть.
Сервис умеет генерировать картинки в разных стилях и заменять объекты на изображениях, а еще — создавать короткие анимационные ролики. В отличие от многих аналогичных сервисов, Kandinsky неплохо понимает русскоязычные запросы и учитывает их при генерации.
Расскажу, почему стоит обратить внимание на нейросеть и как она решает творческие задачи.
Вы узнаете
Что такое Kandinsky
Kandinsky — сервис для генерации картинок от Сбера, аналог «Шедеврума» от «Яндекса», только без социальных функций. С 2022 Сбер каждый год представляет новые версии модели и отчитывается о разработках в блоге на «Хабре».
Принцип работы нейросети не отличается от конкурентов: она рисует изображения в разных стилях на основе текстового запроса или картинки. Но разработчики «Кандинского» заявляют о поддержке более 100 языков, в том числе и русского, чем не может похвастаться Midjourney. Есть и исключения: ChatGPT тоже хорошо работает с русским языком.
Со времен первой версии Kandinsky научился работать с референсами, дорисовывать части изображения и заменять объекты. Он также понимает контуры и глубину: если загрузить набросок или карту глубины, модель будет придерживаться заданной формы при генерации. C 2024 года Kandinsky также умеет генерировать короткие видео.
У нейросети от Сбера есть шесть основных режимов работы:
- Генерация картинки по тексту. Стандартная функция: необходимо написать текстовый запрос, а нейросеть нарисует по нему изображение.
- Смешивание изображений. Можно загрузить две картинки и посмотреть на микс от нейросети.
- Вариации изображения. Если добавить уже готовую картинку или фото, а затем задать определенную стилистику, можно получить новое изображение.
- Дорисовка. Можно взять фото или картинку, а затем попросить нейросеть дополнить ее оставшимися за кадром деталями. Или поменять объекты на уже сгенерированном изображении.
- Перенос стиля. Функция позволяет переносить позу персонажа или очертания исходного изображения на новую сгенерированную картинку.
- Генерация видео по текстовому запросу или на основе загруженного изображения.
Как попробовать нейросеть Kandinsky
Есть несколько способов:
- На сайте fusionbrain.ai, который предоставляет наиболее полный набор функций для создания и редактирования изображений. Требуется регистрация. В бесплатной версии доступно 100 запросов в месяц к модели для генерации картинок Kandinsky 3.0. Есть несколько платных тарифов, которые позволяют создавать видео.
- В официальном телеграм-боте GigaChat — это чат-бот для генерации текста и ответов на вопросы, аналог ChatGPT от Сбера. В интерфейс мини-приложения также встроены модели для генерации изображений и видео.
- На сайте Rudalle — так называлась самая первая версия нейросети Сбера для генерации картинок. Доступно только создание картинки по текстовому запросу.
- С помощью навыка «Включи художника» в голосовом помощнике «Салют» от Сбера. В боте GigaChat во «Вконтакте». Работает аналогично мини-приложению в телеграм-боте нейросети.
- В боте GigaChat во «Вконтакте». Работает аналогично мини-приложению в телеграм-боте нейросети.
Планы в Kandinsky
| Бесплатный | Базовый | Создатель | Профи | Профи+ | |
|---|---|---|---|---|---|
| Стоимость в месяц | Бесплатно | 2 399 ₽ | 20 999 ₽ | 58 999 ₽ | 189 999 ₽ |
| Количество запросов | 100 | 1 000 в месяц | 10 000 в месяц | 30 000 в месяц | 100 000 в месяц |
| Что можно генерировать | Только картинки | Картинки и видео | Картинки и видео | Картинки и видео | Картинки и видео |
Телеграм-бот GigaChat — один из самых удобных способов. Он бесплатный, быстро генерирует и поддерживает основные режимы. В «Телеграме» есть боты других нейросетей, но им нельзя доверять: часто их запускают мошенники. Тут же все официально.
Как генерировать картинки в Kandinsky
Я пользовался двумя способами: телеграм-ботом и платформой fusionbrain.ai. Второе — полноценный сайт для генерации картинок. Есть область, вместо которой появится изображение, текстовое поле для запроса, а также выбор основных стилей.
Квадратом выделена как раз область генерации. Ее размеры можно изменять. Это не особенно полезно при стандартной генерации по тексту, может пригодиться в других режимах.
На сайте доступно шесть моделей для генерации изображений. Каждая подходит для разных задач:
- Kandinsky 4.1 — самая актуальная версия, для сложных и детализированных запросов.
- Kandinsky 3.1 — универсальная, для большинства задач.
- Kandinsky 3.0 и 2.2 — устаревшие версии. Сбер рекомендует использовать их для «живописных и авторских» работ.
- Kandinsky Controlnet (Image-to-Image) — модель, которая сохраняет композицию исходной картинки или позу персонажа, но меняет стиль.
- Flux — модель от сторонних разработчиков, вышедших из команды Stable Diffusion. Подходит для реализма и «модных визуальных решений».

Кроме того, доступно около двадцати стилей, список и количество время от времени меняются. Набор обычен для аналогичных сервисов: киберпанк, аниме, карандашный рисунок, традиционная живопись. Из нестандартных отдельным пунктом значится хохлома. Иногда со списком стилей экспериментируют, например добавляют «Советские мультфильмы» или «Новый год». Это не что-то уникальное: с самыми известными стилями русских народных промыслов и художников знакомы и англоязычные приложения.
По большей части стили работают хорошо, хотя почти всегда нужно несколько попыток. В текстовом запросе можно добавлять стилистику самостоятельно, если ее нет в списке. В этом случае нужно выбрать в меню «Свой стиль».
Можно написать не только что вы хотите видеть на картинке — запрос в поле «Промпт», но и то, чего на ней быть не должно — на вкладке «Негативный промпт». В телеграм-боте GigaChat нет специального поля для негативного промпта, но можно просто перечислить, каких деталей не должно быть на картинке.


В запросах можно использовать эмодзи, но не все нейросеть поймет и воспримет. Например, на момент написания текста Kandinsky в телеграм-боте узнает сердечко 💚, маникюр 💅, цветок 🌺, единорога 🦄, подарок 🎁, клоуна 🤡. Но вместо туалетной бумаги 🧻 генерируется зубная щетка, помада 💄 возвращает изображение накрашенного глаза, а купальник 👙 — мужчину в смокинге.
Картинки на сайте Fusion Brain генерируются в пяти разрешениях: 1:1 (1 024 × 1 024 точек), 2:3 (680 × 1 024), 3:2 (1 024 × 680), 9:16 (576 × 1 024), 16:9 (1 024 × 576).






В телеграм-боте предлагают на выбор около 20 стилей: 4K, аниме, акварель, картина маслом, гжель, малевич, мозаика, детский рисунок, 3D-рендер, ар-деко. А также выбор соотношения сторон — квадрат, альбом, портрет.
Можно прописать стиль в тексте запроса, но в таком случае нейросеть хуже понимает, что от нее требуется.



Редактирование уже сгенерированного изображения — интересная функция. На готовой картинке можно воспользоваться инструментом «ластик» и закрасить им часть, которую нужно поменять. А затем снова нажать кнопку «Создать». Загрузка занимает несколько минут, иногда зависает и выдает ошибку. У меня ушло более 20 бесплатных попыток, чтобы поменять человека в красном пальто на улице киберпанковой Москвы. Сгенерированные объекты получаются искаженными в пропорциях.
Из плюсов — нейросеть аккуратно работает с контуром и не трогает остальные части изображения. Инструмент с возможностью выделения объекта вручную доступен только на сайте fusionbrain.ai.




В телеграм-боте и боте во «Вконтакте» редактировать сгенерированное изображение можно с помощью текстового запроса. Для этого выберите раздел «Редактировать изображение», загрузите картинку и опишите, как именно нужно отредактировать это изображение. Например, «добавь украшения», «убери людей на заднем плане», «раскрась фото».
Я сгенерировал серого кота в голубом свитере, лежащего на спине, а затем загрузил это изображение для редактирования. Попросил нейросеть перекрасить свитер в розовый цвет с белыми снежинками — модель в целом справилась, правда, снежки превратились в странное месиво.


Дорисовка — инструмент, который есть во многих генераторах картинок, включая GigaChat. Работает это так: вы генерируете или загружаете картинку, а затем уменьшаете ее так, чтобы поле генерации было больше изображения. Потом дописываете текстовый запрос или выбираете стиль, после чего нейросеть будто дорисовывает картинку. Такая возможность есть только на fusionbrain.ai, в ботах ее нет.
Я пытался сгенерировать Бэтмена в киберпанк-стиле, но дорисовка так и не сработала: три попытки с получасовым ожиданием просто зависли. Если дело было в авторских правах, сервис об этом никак не сообщил.
Фильтры — доступны только в ботах GigaChat. Нужно загрузить портретную фотографию в анфас и выбрать один из стилей — утро русалки, красна девица, глянцевый гламур, сказочный рыцарь и так далее.
Нейросеть создает новое изображение, где сохраняется внешность, но применяется выбранный стиль: полностью меняются одежда, фон, атмосфера и художественная обработка. Это отличается от простого стиля, который лишь меняет цвета и текстуры.

Как генерировать видео в Kandinsky
В октябре 2023 года Сбер объявил, что теперь Kandinsky позволяет создавать короткие анимационные ролики. Их нельзя назвать полноценными видео, скорее четырехсекундными гифками, которые можно склеить между собой. До реализма качество генераций недотягивает.
Ожидать качества уровня Sora или Veo 3 не стоит. Сервис генерирует только шестисекундные ролики без звука. Разрешение — 512 пикселей. Генерация видео доступна бесплатно в телеграм-боте GigaChat и платно на сайте Fusion Brain.
Вот как создать видео в боте:
- Выберите пункт «Оживить картинку».
- Загрузите изображение или укажите ориентацию, если генерируете только по текстовому запросу.
- Напишите текстовый запрос, указав сюжет, детали и стиль. Не пропускайте шаг, даже если просто хотите оживить картинку.
- Выберите один из десяти эффектов анимации, который задает движение камеры: поворот объекта, облет, отдаление или приближение.
Процесс генерации занимает около четырех минут. Окно с загрузкой можно закрыть: готовый ролик автоматически отправится в чат.
Я загрузил сгенерированную в том же Kandinsky картинку кота в свитере и попросил нейросеть, чтобы кот пошевелился. Результат оказался странным. Кот подергался и нереалистично облизнулся огромным языком. Еще стало очевидно, что животному не хватает четвертой лапы.

Вайб моделей прошлого поколения заметен во всех генерациях, но особенно — в роликах с людьми: черты лица могут плыть, а конечности — принимать неестественные положения. В других сюжетах тоже встречаются артефакты: то меняются мелкие детали, то движения становятся слишком плавными, то происходит что-то неестественное.
Но по сравнению с первой версией Kandinsky Video, где попадались откровенно пугающие искажения вроде лишних пальцев, ошибки стали менее заметными и не настолько критичными.



Что в итоге
- Kandinsky умеет генерировать картинки и короткие видео. Сервис бесплатный, понимает русский язык и не требует обходов блокировок.
- Для сложных задач вроде дорисовки удобнее использовать сайт Fusion Brain, а для быстрых — ботов в соцсетях и мессенджерах.
- Качество картинок пока уступает нейросетям вроде Midjourney или ChatGPT. Модель слабо справляется с реализмом, но зато в иллюстрациях и стилизации работает предсказуемо.
- Генерация видео тоже сырая. Ролики короткие и без звука. Встречаются артефакты предыдущего поколения моделей — плывущие лица, нестабильные мелкие детали, слишком плавные или неестественные движения.
- Чтобы повысить качество, важно точно формулировать промпт: описывать сюжет кратко и однозначно, избегать противоречивых деталей, задавать стиль, пользоваться фильтрами.
Генерировали картинки в нейросетях? Поделитесь своими результатами и расскажите, какой запрос использовали
























