ElevenLabs: как пользоваться самой популярной нейро­сетью для озвучки текста и дубляжа видео
Нейросети
2K
Сгенерированное изображение — Таня Бронникова / Midjourney

ElevenLabs: как пользоваться самой популярной нейро­сетью для озвучки текста и дубляжа видео

Cгенерирует подкаст и переведет ролик
2
Аватар автора

Ярослав Ивус

переозвучил Марго Робби

Страница автора

ElevenLabs — универсальный ИИ-сервис для работы с голосом.

Приложение преобразует текст в естественную речь, позволяет настраивать синтетические голоса, загружать собственные образцы, генерировать эффекты или музыку. Это инструмент для тех, кто работает с подкастами, видео, рекламой или учебными материалами.

Расскажу про основные функции и протестирую их.

Что такое ElevenLabs

Лондонский стартап ElevenLabs основали в 2022 году. Компания быстро стала одной из самых заметных в сфере генеративного аудио. Она разрабатывает модели, которые умеют естественно звучать, передавать эмоции, акценты и тембр голоса. Вот какие функции есть у сервиса.

🎙️ Синтетические голоса, которые звучат похоже на живую речь. Можно выбрать готовый вариант, создать свой по текстовому описанию или загрузить образец, чтобы получить цифровую копию голоса. Модели корректируют интонации, паузы и темп, поэтому звучание выходит менее роботизированным.

Отдельно у ElevenLabs есть библиотека лицензированных голосов. Туда входят ИИ-версии актеров вроде Майкла Кейна и Мэттью Макконахи, которые согласились на такое использование их голосов.

🎞️ Автоматический дубляж. Сервис переводит и озвучивает ролики на десятках языков, стараясь сохранить тембр и манеру речи человека в кадре.

🎛️ Набор аудиоинструментов: генерация звуковых эффектов, создание музыки по текстовому запросу, распознавание речи и транскрибация.

📱 Озвучивание приложений и ботов. Через API ElevenLabs интегрируют в техподдержку, обучающие сервисы и игры. Разработчики используют его, чтобы дать ассистентам или персонажам более естественные голоса.

Как получить доступ к ElevenLabs из России

Сайт ElevenLabs недоступен в России. Чтобы его открыть, смените IP-адрес на иностранный. После этого нажмите на кнопку Sign Up в правом верхнем углу. Регистрация доступна через аккаунт Google или по электронной почте.

При входе через Google достаточно авторизоваться в своем профиле — сервис откроется сразу. При регистрации по почте укажите адрес, придумайте пароль и примите условия пользования сервисом. На почту придет письмо со ссылкой для подтверждения. Нажмите на Verify Email — вас перенаправит обратно на сайт, где останется еще раз ввести почту и пароль.

После регистрации запустится процесс ознакомления с сервисом:

  1. Выберите светлую или темную тему.
  2. Укажите имя, дату рождения и предпочитаемый язык. Русского в списке нет — оставьте английский.
  3. Вам предложат рассказать, откуда вы узнали об ElevenLabs. Чтобы не тратить время, нажмите Don’t Remember или Skip.
  4. Выберите между Creative Platform и Agents Platform. Остановитесь на первом варианте, потому что именно там доступны основные функции.
  5. Укажите профессию: маркетолог, подкастер и так далее. Если предложенные варианты не подходят, нажмите кнопку Other или Skip.
  6. Выберите, для каких задач будете использовать сервис — личных или рабочих. Лучше указывать личные, чтобы сервис не предлагал подписаться на корпоративный тариф.
  7. Выберите, какими функциями хотите пользоваться. Если не хотите сразу перейти к конкретной, нажмите Skip.
  8. На последнем экране предложат оформить платную подписку. Я пользовался бесплатной версией. В ней дают 10 тысяч кредитов, которые обновляются раз в месяц. Лимит довольно щедрый: его хватает, чтобы оценить основные возможности сервиса.

Несмотря на то что весь интерфейс платформы доступен только на английском, нейросеть распознает текст на русском и может его озвучивать.

Как пользоваться ElevenLabs

Разберу основные функции, связанные с голосом, озвучкой и транскрибацией, — как ими пользоваться и насколько эффективно они справляются с заявленными задачами.

⚙️ Создание голоса. В разделе Voices можно сгенерировать новый голос и сохранить его в библиотеке, чтобы потом использовать для озвучки текста. Нажмите Create or Clone a Voice. Клонирование собственного голоса доступно только в платных тарифах, поэтому выберите пункт Voice Design — генерация по текстовому описанию.

Введите описание персонажа на английском языке. Можно выбрать один из готовых промптов: «злой огр», «маленькая мышь», «южная женщина» и так далее. Генерация стоит 350 кредитов. Сервис выдаст три варианта, которые можно прослушать. Нажмите Select Voice на том, который понравится. Затем задайте название, добавьте теги для фильтрации и сохраните голос в свою библиотеку. После этого его можно использовать для озвучки.

🎙️ Озвучка текста — самая популярная функция ElevenLabs. Чтобы воспользоваться, нажмите на кнопку Text to Speech в левом меню. Появится чистое текстовое поле, куда можно ввести или скопировать текст до пяти тысяч знаков.

Справа находятся настройки генерации:

  1. Voice — выбор голоса для озвучки. Доступны женские и мужские, с разными тембрами и интонациями. У каждого есть предварительное прослушивание. Тут же можно выбрать голос, который вы заранее создали.
  2. Model — выбор модели. Доступны три варианта, все поддерживают русский язык. Самая новая — Eleven v3 — пока находится в превью-режиме и может нестабильно работать. Eleven Multilingual v2 — стандартная. Предыдущая модель, Eleven Flash 2.5, расходует вдвое меньше кредитов по сравнению с v2, но и генерирует менее качественно.
  3. Speed — скорость речи говорящего.
  4. Stability регулирует однообразие голоса. Высокие значения делают речь более ровной и монотонной. При низкой стабильности голос звучит живее: появляются паузы и вздохи.
  5. Similarity отвечает за степень соответствия выбранного после настроек голоса его исходному тембру. При слишком высоких значениях могут быть ошибки в звучании.
  6. Style усиливает эмоциональность и выразительность речи. Чем выше значение, тем более насыщенная подача.
  7. Speaker Boost усиливает сходство между исходным и синтезируемым голосами. Если включить, озвучка будет генерироваться медленнее.

После выбора всех нужных опций нажмите Generate Speech. Для теста я взял короткую новость о тизере мультфильма «История игрушек 5». Для озвучки выбрал Soft Female Russian voice — мягкий женский голос с теплой и спокойной интонацией. Генерация заняла несколько секунд. Результат получился неплохим, хотя пару раз модель промахнулась с эмоцией. На 21-⁠секундное аудио ушло 244 кредита.

Если вариант не устраивает, можно изменить настройки и нажать Regenerate Speech — нейросеть создаст новую версию с теми же параметрами. Чтобы скачать аудио, нажмите на стрелку рядом с кнопкой Regenerate Speech.

🔄 Смена голоса. Эта функция позволяет заменить голос в аудио или видео на один из доступных в ElevenLabs или на собственный, если есть подписка. Важно отметить, что эта функция не переводит аудиодорожку.

Чтобы воспользоваться, откройте раздел Voice Changer и загрузите файл либо запишите голос через кнопку Record Audio. Настройки такие же, как при генерации озвучки: выбор голоса и модели, ползунки стабильности, степени соответствия голосу и эмоциональности.

Правда, из моделей доступны только две: Eleven English v2 и Eleven Multilingual v2. Первая работает с английским, а вторая — мультиязычная, поддерживает русский. Из новых функций, которых не было в предыдущем разделе, — Remove Background Noise. Она устраняет посторонние звуки на фоне.

Я протестировал функцию на отрывке из фильма «Игра на понижение», где Марго Робби объясняет, что такое ипотечный кризис и финансовые деривативы, лежа в джакузи с бокалом шампанского. ИИ справился — рассказ стал звучать так, будто преподаватель в вузе читает лекцию.

Единственный минус — в этом режиме ElevenLabs выдает только дорожку MP3, а не готовое видео. Придется сводить вручную. Скачать файл можно по стрелке рядом с кнопкой Regenerate Speech. Минутное видео с заменой голоса обошлось мне почти в тысячу кредитов.

🎬 Дубляж видео. А с этой функцией можно получить готовый ролик с переводом. Перейдите в Dubbing в левом меню и нажмите Create a Dub. В поле Project Name задайте название. В Source Language выберите язык, с которого нужно перевести, а в Target Language — на который нужно перевести.

Загрузите видео или укажите ссылку на «Тикток», «Ютуб» или другой источник. Размер ролика быть не больше 1 Гб, а длиться он должен не более 45 минут. Выберите количество говорящих людей — их может быть от одного до 32. Внизу будет указано, сколько кредитов уйдет на генерацию. В моем случае перевод минутного ролика с английского на русский обошелся в 2 121 кредит. На нем появилась вотермарка ElevenLabs.

ElevenLabs довольно быстро справилась с обработкой: за пару минут получился перевод специфичной и быстрой речи. Голос, конечно, не особенно похож на Марго Робби, но сам перевод точный, без заметных артефактов и без слышимых запинок.

Из минусов — интонация получилась немного неживой, а в конце голос слегка изменился.

Не профессиональный дубляж, но не хуже многих пиратских вариантов

✍️ Транскрибация. Функция позволяет загрузить аудио или видео и получить расшифровку. Удобно, если нужно превратить запись лекции в конспект или получить текстовую версию созвона.

Чтобы воспользоваться, откройте в левом меню раздел Speech to Text и нажмите Transcribe files. Перетащите аудио- или видеофайл в поле загрузки — размер не должен превышать 1 Гб. Далее выберите, чтобы транскрибацию выполнял ИИ. Есть и альтернатива — отправить запись реальному человеку, который расшифрует ее вручную. Такой вариант занимает до 48 часов и стоит 2,2 $ за минуту.

Выберите язык, на котором говорят в записи — русский доступен. Дополнительно можно включить или отключить пометки о фоновых звуках: если в записи слышны смех, шаги или шум, ИИ добавит это в расшифровку.

Также можно включить генерацию субтитров. Нейросеть сначала превратит аудио в текст, а затем откроет этот текст в редакторе, где можно проверить синхронизацию с видео. После настройки параметров нажмите Upload files.

Сначала я хотел получить транскрипт получасовой лекции, но на это нужно почти 30 000 кредитов — примерно в три раза больше, чем доступно в бесплатном тарифе. Поэтому я проверил функцию на том же фрагменте с Марго Робби.

После обработки файла сервис открывает страницу с транскриптом. Там речь разбита по секундам, со спикерами и таймкодами. Внизу расположена звуковая дорожка — включите ее, если нужно сверять текст с аудио. Саму расшифровку можно редактировать вручную прямо на странице: достаточно нажать на нужное предложение и внести правки.

В разделе Subtitles можно подправить субтитры и проверить, насколько они совпадают с видео. Справа отображается небольшое окно с роликом, где субтитры показываются в реальном времени. Чтобы скачать расшифровку или субтитры, нажмите Export в правом верхнем углу — доступны разные форматы, включая PDF, DOCX и SRT.

Что еще умеет ElevenLabs

У сервиса есть еще несколько функций, которые не относятся напрямую к генерации речи или транскрибации. Ниже — коротко о самых полезных.

Звуковые эффекты. На основе текстового запроса можно сгенерировать любой звук, например шум прибоя, взрыв, кряканье. Для этого в разделе Sound Effects опишите на английском, какой хотите получить, и нажмите Generate Sound Effects.

За 200 кредитов нейросеть выдаст четыре варианта. В разделе Explore можно искать эффекты, созданные другими пользователями, — там есть категории для звуков животных, баса, взрывов и многого другого. Правда, скачивать их можно только с подпиской.

🔇 Изоляция голоса. В разделе Voice Isolation можно очистить аудио от фоновых шумов и оставить только голосовую дорожку. Минута обработки стоит примерно тысячу кредитов.

🖼️ Генерация картинок и видео. В разделе Image & Video доступны сторонние модели. Для изображений — Nano Banana, Seedream, OpenAI GPT Image, Flux, Wan. Для видео — Sora 2, Veo 3, Kling, Seedance, Wan.

Использование этих моделей обходится дорого. Одно видео в Sora 2 стоит около четырех тысяч кредитов, а картинка из ChatGPT — больше двух. Пара генераций может съесть весь месячный лимит, поэтому логичнее работать в оригинальных сервисах. Тем более что большинство из них доступно бесплатно.

🎶 Генерация музыки. За это отвечает собственная модель ElevenLabs Music. Чтобы создать трек, в разделе Music опишите его на английском языке, выберите количество генераций, продолжительность и при желании добавьте текст песни. Одна минута стоит 1 800 кредитов. Правда, скачать получившийся трек можно только с подпиской.

🎧 Генерация аудиокниг и подкастов доступна в разделе Studio. Чтобы сгенерировать аудиокнигу, достаточно загрузить текстовый документ. Но чтобы озвучить большой текст, потребуется куда больше десяти тысяч кредитов.

Также в Studio можно собрать подкаст — загрузить текст, выбрать спикеров и настроить озвучку. Еще доступна озвучка веб-⁠страниц, генерация текстовых сценариев, создание войсовера, добавление звуковых эффектов и музыки, генерация субтитров, чистка фонового шума и исправление ошибки в озвучке.

Сколько стоит подписка и нужна ли она

Бесплатно в ElevenLabs доступно 10 000 кредитов, которые восполняются ежемесячно. Без подписки есть все базовые функции, а вот более продвинутых нет. Например, нельзя клонировать собственный голос, сохранять сгенерированные песни, озвучивать веб-⁠страницы. Полный список платных функций можно посмотреть на сайте.

Чтобы оплатить подписку, нажмите Upgrade и выберите подходящий план. Потребуется иностранная банковская карта. Тарифы различаются главным образом объемом кредитов, так что выбор зависит от того, насколько активно вы планируете пользоваться ElevenLabs.

Тарифы в Elevenlabs

ПланFreeStarterCreatorProScaleBusiness
Стоимость в месяцБесплатно5 $⁣ (403 ₽)  22 $⁣ (1 774 ₽)99 $⁣ (7 984 ₽)330 $⁣ (26 616 ₽)1 320 $⁣ (106 466 ₽)
Количество кредитов в месяц10 00030 000100 000500 0002 000 00011 000 000

Тарифы в Elevenlabs

Free
Стоимость в месяцБесплатно
Количество кредитов в месяц10 000
Starter
Стоимость в месяц5 $⁣ (403 ₽) 
Количество кредитов в месяц30 000
Creator
Стоимость в месяц22 $⁣ (1 774 ₽)
Количество кредитов в месяц100 000
Pro
Стоимость в месяц99 $⁣ (7 984 ₽)
Количество кредитов в месяц500 000
Scale
Стоимость в месяц330 $⁣ (26 616 ₽)
Количество кредитов в месяц2 000 000
Business
Стоимость в месяц1 320 $⁣ (106 466 ₽)
Количество кредитов в месяц11 000 000

Что в итоге

  1. ElevenLabs недоступен в России без смены IP-адреса, а интерфейс полностью англоязычный, но сама нейросеть уверенно работает с текстом и озвучкой на русском.
  2. Сервис закрывает все базовые задачи с голосом. Озвучка текста, транскрибация, дубляж и замена голоса работают быстро и без заметных ошибок. Иногда приходится подкручивать настройки, чтобы звучало живее.
  3. Основные функции можно опробовать бесплатно. Кредитов достаточно, чтобы протестировать озвучку небольшого текста и дубляж коротких роликов. Но если задача объемная, лимита не хватит. Кроме того, важная функция клонирования голоса доступна только с подпиской.
  4. Часть дополнительных инструментов сильно съедает кредиты — практичнее пользоваться ими в родных сервисах, а не внутри ElevenLabs.
  5. В целом сервис подходит для тех, кто регулярно работает с озвучкой. ElevenLabs может быстро выполнить задачу, но не закроет потребность в профессиональном дубляже.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

Ярослав ИвусУже пробовали ElevenLabs? Расскажите о впечатлениях:
    Сообщество