8 полезных нейро­сетей для работы с изображениями, видео, текстом и голосом

8 полезных нейро­сетей для работы с изображениями, видео, текстом и голосом

11
Аватар автора

Алексей Никитченко

упростил жизнь с нейросетями

Страница автора

Часто нейросети вспоминают в интернете и СМИ только в связи с сервисами, которые умеют рисовать картинки по описанию.

Но алгоритмы уже давно используют и для более комплексных проектов, например в видеомонтаже и при создании музыки. Я собрал несколько нейросетевых сервисов, которые могут пригодиться как в творчестве и досуге, так и для профессиональных задач. Все их можно попробовать бесплатно, а за какие-то не нужно платить вообще.

Topaz Labs

Кратко: семейство ИИ-сервисов для улучшения изображений и видео
Где попробовать: на сайте
Сколько стоит: набор всех приложений 874 $⁣ (79 490 ₽), каждое отдельно — от 79 $⁣ (7185 ₽) до 299 $⁣ (27 194 ₽). Есть 30 дней бесплатного периода

Topaz Labs — компания, у которой есть восемь сервисов на основе нейросетей. Они качественно работают с изображениями и видео. Алгоритмы Topaz используют как любители, так и профессиональные фотографы. Все сервисы доступны бесплатно, хоть и с вотермаркой.

Вот какие сервисы предлагает компания:

  1. Topaz Photo AI — автоматическое улучшение любого фото. Подойдет тем, кому не хочется разбираться в настройках. В платный набор также входит Topaz Sharpen AI для улучшения резкости фотографий и Topaz DeNoise AI для устранения шума в фотографиях, снятых с высоким ISO и при слабом освещении.
  2. Topaz Video AI — стабилизация, масштабирование и улучшение качества видео.
  3. Topaz Gigapixel AI — улучшает качество фотографий, снятых на плохую камеру. Хорошо работает со старыми снимками.
  4. Topaz Mask AI — позволяет менять фон изображений в пару кликов.
  5. Topaz Adjust AI — улучшает цвета, тени и другие места фотографий, чтобы сделать их выразительнее.
  6. Topaz JPEG to RAW AI — конвертер изображений из JPEG в RAW-формат.

У продуктов достаточно много сценариев применения. Например, с помощью Video Enhance AI и Gigapixel AI делают ремастеры старых видео и фильмов: улучшают качество вплоть до 8K и 60 кадров в секунду. Другими нейросетями пользуются профессиональные фотографы.

Я протестировал работу Topaz на одном неудачном снимке из путешествия. Исправлял я его в программе Gigapixel AI: нейросеть там обучили так, чтобы она могла различать на фотографиях шумы.

Программа сама выставляет настройки при загрузке файла, так что новичкам не придется долго разбираться в параметрах. В процессе обработки алгоритмы вставляют в некачественные части изображения необходимые детали, которые встречаются у похожих качественных фото. В результате размытое изображение заметно преобразилось.

Это моя неудачная фотография северного сияния до обработки
Такая фотография получилась после обработки нейросетью Gigapixel AI. Издалека результат выглядит потрясающе, но если присмотреться, видны огрехи

Главный минус продуктов Topaz — системные требования. Во-первых, компьютер должен обладать современной 64-разрядной версией операционной системы. Лучше всего, если на вашем компьютере стоит как минимум Windows 10 или 11 либо macOS Mojave 10.14.

Во-вторых, оперативной памяти должно быть не менее 8 Гб, а видеопамяти — не менее 2 Гб. Я использовал Gigapixel AI на компьютере с процессором Intel Core i5 третьего поколения, и в момент обработки фотографии приложение задействовало 95% его ресурсов. Из-за этого местами компьютер подтормаживал, но в остальном проблем не возникало.

Советский мультфильм «На краю земли», улучшенный с помощью нейросети

Runway ML

Кратко: видеоредактор с поддержкой нейросетей, заметно облегчающих работу
Где попробовать: на сайте
Сколько стоит: стандартная версия — 12 $⁣ (1091 ₽) в месяц, полная — 78 $⁣ (7094 ₽) в месяц. Можно сделать до трех проектов бесплатно

Runway ML — фото- и видеоредактор на основе нейросетей. Задачи, для которых раньше требовалось много работы и соответствующие навыки, с таким редактором решаются за несколько минут. Хоть и не без проблем: как и в работе многих нейросетей, у Runway проявляются ошибки и артефакты.

В Runway можно работать прямо на сайте, ничего скачивать не нужно — это удобно. Чтобы воспользоваться сервисом, нужно зарегистрироваться, а потом перейти на вкладку AI Magic Tools с нейросетевыми помощниками. В этом разделе представлены сразу 26 нейросетей, которые помогут в работе.

На сайте можно убрать с любого видео человека или другой объект, добавить «зеленый экран» вместо фона, размыть фон или лица, заменить один предмет на другой, очистить звук от посторонних шумов и не только. Сервис предлагает попробовать нейросети на своих видео из папки Demo Assets, чтобы вы могли протестировать его возможности. Также можно загрузить собственный ролик и отредактировать его.

Другая интересная возможность — генерация видео по текстовому запросу с помощью нейросети Runway Gen-2. Вводите промпт, после чего нейронка создает на его основе четырехсекундный ролик. Бесплатно дается 105 секунд генерации, а полученные результаты потом можно склеить в полноценный видеопроект. На Т⁠—⁠Ж есть подробная инструкция, как попробовать Runway Gen-2 самостоятельно.

Я решил убрать из деморолика серфера. На это у меня ушла пара минут
Я решил убрать из деморолика серфера. На это у меня ушла пара минут
Незаметно убрать не вышло — видны артефакты на стыке склона и воды. Уверен, если бы я потратил чуть больше времени, получилось бы качественнее
Незаметно убрать не вышло — видны артефакты на стыке склона и воды. Уверен, если бы я потратил чуть больше времени, получилось бы качественнее

Audo Studio

Кратко: сервис, который убирает посторонние звуки при записи речи
Где попробовать: на сайте
Сколько стоит: полная версия — 12 $⁣ (1091 ₽) в месяц, в урезанной версии 20 минут в месяц бесплатно

Главная задача Audo — выделить голос и избавиться от всего, что мешает его услышать. Искусственный интеллект обучили на разных записях шумов, и, по ощущениям, он справляется почти идеально. Звуки фена, лай собак, дрель соседа — на финальной звуковой дорожке не остается ничего лишнего.

Для обычных пользователей есть функция удаления шумов по одному клику. Для профессиональных пользователей, например блогеров или подкастеров, есть платная программа Studio. Она не только убирает шумы, но и улучшает записанную речь: выравнивает громкость, обрезает оговорки и длинные паузы. Также есть отдельное приложение Magic Mic от тех же разработчиков — оно убирает шумы в прямом эфире во время звонков.

В качестве главного минуса можно выделить искажение голоса, привычное для нейросетевых шумоподавителей. В Audo этот эффект местами более выражен, чем в других сервисах. По всей видимости, нейросеть работает с исходниками так, чтобы никакие лишние звуки гарантированно не попали в результат, из-за чего изначальный голос «цепляет» обработкой.

Попробовать Audo можно даже без регистрации — достаточно записать голос или загрузить файл
Попробовать Audo можно даже без регистрации — достаточно записать голос или загрузить файл

MuseNet

Кратко: нейросеть, которая создает музыку
Где попробовать: на сайте
Сколько стоит: полностью бесплатно, доступен с иностранным IP-адресом

MuseNet — проект OpenAI, создателей популярной нейросети для рисования DALL-E. Но этот сервис работает не с изображениями, а с музыкой.

Нейросеть обучили создавать композиции на основе сотен тысяч других музыкальных произведений. В итоге она генерирует четырехминутные треки. На сайте можно задать, с какой мелодии начнется музыка, выбрать общий стиль и добавить любимые инструменты. Например, можно начать музыку с мелодии из «Крестного отца», выбрать в качестве стиля джаз и добавить немного гитары.

Как объясняют создатели, нейросеть MuseNet не обучена специально под человеческое понимание музыки. Она обнаруживает закономерности гармонии, ритма и стиля по-своему, при этом итоговые композиции все равно звучат приятно. Главный минус — сервис существует внутри блога OpenAI, отдельной программы нет.

Такую музыку можно свободно использовать в качестве фоновой. Разве что разработчики просят не взимать плату за ее прослушивание, а также предупреждают, что нейросеть может случайно проиграть мелодию с авторскими правами. Шансы очень малы, но подбор от нейросети вполне может однажды совпасть с реальным треком.

Регистрироваться не нужно: прямо на сайте есть блок с настройками и кнопкой Play
Регистрироваться не нужно: прямо на сайте есть блок с настройками и кнопкой Play

DeepL

Кратко: мощный онлайн-переводчик, который справляется с задачами лучше Гугла
Где попробовать: на сайте, в приложениях для macOS, Windows, iOS и Android, в браузере
Сколько стоит: бесплатно с ограничениями, есть pro-версия от 10,5 $⁣ (955 ₽) в месяц, но в России она недоступна

Методы машинного обучения применяют все основные технологические гиганты, которые связаны с переводами, — от «Гугла» до «Майкрософта». Но гораздо точнее считывает контекст немецкий стартап DeepL: с помощью нейросетей он достаточно успешно и связно переводит как общие тексты, так и специализированные.

Поддерживается 30 языков, и стандартные связки вроде английский — русский или испанский — русский работают хорошо. За раз можно перевести до пяти тысяч символов, также доступна загрузка документов — до трех в месяц в бесплатной версии. Есть функция глоссария: можно заранее «объяснить» сервису, как правильно переводить нетипичные слова, термины и фразы.

Подписка предназначена для профессионального использования: убирается большинство ограничений и лимитов, тексты удаляются с серверов сразу же после перевода, добавляются функции персонализации для переводчиков.

Есть бесплатная функция DeepL Write: загрузите текст — и нейросеть подскажет, как его можно улучшить, например исправить ошибки, подобрать синонимы, перефразировать. В бета-режиме пока поддерживаются только английский и немецкий языки.

Нейросеть в целом верно передала монолог из «Рокки», но в 2022 году вопросы к переводу были
Нейросеть в целом верно передала монолог из «Рокки», но в 2022 году вопросы к переводу были
В марте 2024 года вопросов к переводу стало значительно меньше
В марте 2024 года вопросов к переводу стало значительно меньше

Uberduck

Кратко: генератор голоса с возможностью «клонирования» чужого голоса и перевода текста в речь
Где попробовать: на сайте
Сколько стоит: бесплатно с ограничениями, есть pro-версия за 10 $⁣ (906 ₽) в месяц

Uberduck начинался как шуточный генератор, где можно было зачитать любой англоязычный текст, имитируя голоса и манеру известных рэперов. А уже через полтора года сервис не только получил признание, но и нашел коммерческое применение задумки.

Для бесплатного использования в библиотеке Uberduck доступно более четырех тысяч голосов: от Канье Уэста до Шрэка. Озвучивают они преимущественно англоязычный текст, но можно найти голоса, натренированные на других языках. Русскоязычных голосов 15, и они очень неплохо читают загруженный текст.

Технология качественно переводит текст в речь — можно легко запутаться, где говорит реальный человек, а где нейросеть. Хотя зависит от конкретного голоса: одни звучат естественно, в других отчетливо слышна «роботизированность». Новые голоса добавляет сообщество, которое активно помогает разработчикам.

Платные функции еще интереснее. Например, можно «клонировать» свой голос, редактировать его и использовать для озвучки текста. Для этого нужно передать сервису около 20 минут записи своей речи. Также можно воспользоваться уже синтезированными уникальными голосами в коммерческих целях.

Любой текст можно зачитать, например, голосом персонажа Warcraft III
Любой текст можно зачитать, например, голосом персонажа Warcraft III

ChatGPT

Кратко: главная нейросеть для генерации текста
Где попробовать: на сайте
Сколько стоит: полностью бесплатно, доступна с иностранным IP-адресом

ChatGPT — разработка OpenAI, которую назвали революционной. Чат-бот, основанный на новейшей версии алгоритма GPT, умеет имитировать осознанный диалог с собеседником, писать тексты, стихи, песни, код, придумывать сценарии, составлять сочинения для экзаменов. ChatGPT набрала первый миллион пользователей за рекордные пять дней.

В отличие от многих нейросетевых чат-ботов, ChatGPT запоминает детали разговора и может строить ответы, основываясь на информации, которую ему уже сообщил пользователь. Поэтому у нее оказывается больше контекста. Также она генерирует текст, гораздо более осмысленный и связный, чем предыдущие версии GPT. В марте 2024 года бесплатно доступна версия 3.5, но нейросеть не знает о событиях позже января 2022 года.

Ответы Чат-бот дает за считаные секунды. Нейросеть может генерировать размышления или придумать новые идеи для бизнеса, а еще качественно собирает общую информацию и выдает базовые знания. Мы подробно писали про ChatGPT в отдельном материале.

На русском языке нейросеть в 2022 году отвечала не так хорошо, как на английском
На русском языке нейросеть в 2022 году отвечала не так хорошо, как на английском
В 2024 году нейросеть хорошо справилась с заданием. А если что-то не понравилось, можно предложить ей ответить иначе
В 2024 году нейросеть хорошо справилась с заданием. А если что-то не понравилось, можно предложить ей ответить иначе

YandexGPT

Кратко: российская нейросеть для генерации текста
Где попробовать: на сайте, в приложении и браузере «Яндекс», на Яндекс Станции и телевизорах с Алисой
Сколько стоит: полностью бесплатно

Нейросеть запустили в мае 2023 года. Она может отвечать на вопросы, придумывать идеи, написать список из заданного количества пунктов, создать связный текст на любую тему, объяснить что-то ребенку на понятном ему языке.

YandexGPT запоминает контекст разговора, отвечает на уточняющие вопросы и знает актуальную информацию до марта 2023 года. В отличие от ChatGPT, сервис не требует иностранного номера и IP-адреса. А качество ответов сравнимо с бесплатной версией аналога.

Нейросеть интегрирована с Алисой и «Яндекс Браузером». Подробно о YandexGPT мы писали в другой статье.

Нейросеть написала качественное письмо с неплохими советами
Нейросеть написала качественное письмо с неплохими советами
Генерировали картинки в нейросетях? Поделитесь своими результатами и расскажите, какой запрос использовали
Алексей НикитченкоРасскажите, какие нейросети помогают вам в работе: