Как превратить голос в текст: тестируем 6 сервисов для расшифровки
Я работаю с текстом и мечтаю о программе, которая сможет превратить голос в напечатанные слова.
Например, расшифрует за меня интервью длиной в несколько часов. Или позволит наговорить идеи, а в ответ пришлет заметку. Наконец, «напишет» за меня смс: поймет несколько обрывистых фраз и отправит адресату текст — потому что голосовые сообщения любят не все.
Я протестировал 6 таких сервисов: наговорил один и тот же текст, а потом сравнил результаты. Я использовал два способа: сначала давал программе послушать и расшифровать живой голос, а потом — в записи.
Текст для теста
Вот текст для теста: «Привет. Это тестовая запись для статьи об инструментах, которые умеют превращать голос в текст. Как думаете, этот сервис справится? Распознает интонацию вопроса и, например, числа — один, два, три? Вот что получилось».
Google Keep
Что умеет. Это приложение для создания и хранения заметок можно использовать как расшифровщик. Если на главном экране нажать на иконку микрофона и начать говорить, то сервис будет переводить звук в текст — это называется транскрибацией. Загрузить и расшифровать аудиофайл не получится.
У сервиса есть еще один минус: запись останавливается, если молчать две-три секунды, поэтому расшифровывать длинные интервью не получится. Разве что делать это небольшими кусками. Наговорить несколько идей и получить их в блокноте получится отлично.
Результат. Я проверил два способа: наговорил текст самостоятельно и включил запись того же текста через колонку — никакой разницы нет. Вышло хорошо: сервис не распознал только знаки препинания и напечатал числа без пробелов.
Сообщения «Вконтакте»
Что умеет. В мобильном приложении соцсеть умеет расшифровывать входящие голосовые сообщения. Это можно использовать и в наших целях: отправлять сообщения самому себе.
Для этого зайдите в раздел с диалогами и в поисковом окне вбейте свое имя. Дальше зажмите значок микрофона и наговорите сообщение. Когда оно появится в диалоговом окне, нажмите на «Аа» справа от записи.
Результат. «Вконтакте» расшифровал живой голос с ошибками в склонениях и перепутал несколько слов: например, «сервис» услышал как «серый». Но справился с числами. Записанный и пропущенный через колонку голос сервис расшифровал намного хуже — получился набор слов, который нужно буквально переписывать.
Transcribe
Где работает: в онлайне
Сколько стоит: 20 $ (1519 ₽) в год + 6 $ (455 ₽) за час расшифровки
Демодоступ: 7 дней и 1 минута расшифровки
Что умеет. Программа может расшифровать загруженный файл, ролик с «Ютуба» и живую речь. Еще можно регулировать скорость воспроизведения, в том числе ножными педалями для диктовки..
Результат. Транскрибация получилась на уровне Google Keep: сервис вместо слова «например» написал «имя», не поставил пробелы между числами. Зато он определил первое предложение и поставил восклицательный знак. Аналогичный результат и с воспроизведением записанного голоса.
Голосовой блокнот
Что умеет. Сервис распознает голосовой ввод: можно надиктовывать самостоятельно, можно воспроизводить диктофонную запись.
Еще в «Голосовом блокноте» есть «панель транскрибации» — так разработчики называют специальную область на сайте, куда можно встроить ролик с «Ютуба» или загрузить файл с аудио или видео. Но расшифровывать речь программа будет во время воспроизведения — то есть никакой экономии времени: загрузить два часа интервью и сразу получить текст не выйдет.
Когда я тестировал сервис, эти функции не заработали. Загрузить записанный на диктофон файл сервис не дал. Еще я попробовал обходной путь — выгрузил этот файл в облако и предложить сервису расшифровать его по ссылке, но тоже ничего не получилось.
Результат. Живой голос сервис расшифровал так же, как и воспроизведенный через колонку. Из ошибок — нет знаков препинания, все одним предложением. И никаких пробелов между числами.
Telegram Premium
Где работает: в онлайне, iOS, Android
Сколько стоит: 299 ₽ в месяц через бота
Что умеет. Мессенджер может расшифровывать входящие голосовые сообщения. Это можно использовать и в наших целях: отправлять сообщения самому себе. Для этого перейдите в сохраненные сообщения, нажмите на значок микрофона, свайпните вверх и начинайте говорить. Когда сообщение появится в диалоговом окне, нажмите на «А» со стрелочкой справа от записи.
Сторонние аудио сервис не расшифрует, но его можно использовать для записи интервью или других диалогов: «Телеграм» поддерживает длинные войсы. Текст пополняется в прямом эфире — он будет добавляться по мере расшифровки.
Результат. Функция расшифровывает аудиосообщения довольно точно и справляется с числами. Но мессенджер ошибся в форме слова «распознавать» и не везде верно расставил знаки препинания. Записанный и пропущенный через колонку голос сервис расшифровал хуже — получился набор слов, но его все равно можно понять.
SpeechText.ai
Где работает: в онлайне
Сколько стоит: 15 минут — бесплатно, далее 10 $ (700 ₽) за 180 минут
Что умеет. Транскрибатор, который работает с помощью нейросетей. Расшифровывает только загруженные файлы — нужно будет записывать голос заранее, а потом загружать файл на сайт. Зато удобен для расшифровки интервью.
Поддерживает сразу 30 языков, включая русский. Можно выбрать тематику аудио, а также его вид: интервью, телефонный звонок, конференция и так далее.
Результат. Двадцатисекундное аудио расшифровывает за несколько секунд. Сервис неплохо справился: почти не ошибся в словах, распознал цифры, расставил знаки препинания и пробелы. Но допустил грамматическую ошибку и добавил лишнюю цифру. Пользоваться можно, но потом придется редактировать.
Какой сервис расшифровки выбрать
Сервис | Цена | Как расшифровал живой голос | Записанный голос | Загруженный аудиофайл |
---|---|---|---|---|
Google Keep | Бесплатно | 👍 👍 👍 | 👍 👍 👍 | ❌ |
Сообщения «Вконтакте» | Бесплатно | 👍 | 👎 | ❌ |
Transcribe | 1518 ₽ в год + 455 ₽ за час | 👍 👍 👍 | 👍 👍 👍 | 👍 👍 👍 |
Голосовой блокнот | Бесплатно | 👍 👍 👍 | 👍 👍 👍 | ❌ |
Telegram Premium | 299 ₽ в месяц | 👍 👍 | 👍 | ❌ |
SpeechText.ai | 15 минут бесплатно | 👍 👍 👍 | 👍 👍 👍 | 👍 👍 👍 |
Какой сервис расшифровки выбрать
Google Keep | |
Цена | Бесплатно |
Как расшифровал живой голос | 👍 👍 👍 |
Записанный голос | 👍 👍 👍 |
Загруженный аудиофайл | ❌ |
Сообщения «Вконтакте» | |
Цена | Бесплатно |
Как расшифровал живой голос | 👍 |
Записанный голос | 👎 |
Загруженный аудиофайл | ❌ |
Transcribe | |
Цена | 1518 ₽ в год + 455 ₽ за час |
Как расшифровал живой голос | 👍 👍 👍 |
Записанный голос | 👍 👍 👍 |
Загруженный аудиофайл | 👍 👍 👍 |
Голосовой блокнот | |
Цена | Бесплатно |
Как расшифровал живой голос | 👍 👍 👍 |
Записанный голос | 👍 👍 👍 |
Загруженный аудиофайл | ❌ |
Telegram Premium | |
Цена | 299 ₽ в месяц |
Как расшифровал живой голос | 👍 👍 |
Записанный голос | 👍 |
Загруженный аудиофайл | ❌ |
SpeechText.ai | |
Цена | 15 минут бесплатно |
Как расшифровал живой голос | 👍 👍 👍 |
Записанный голос | 👍 👍 👍 |
Загруженный аудиофайл | 👍 👍 👍 |