Приложение Т—Ж
В нем читать удобнее

Я разработал приложение для транскрипции видео и аудио

1

Этот текст написан в Сообществе, в нем сохранены авторский стиль и орфография

Исходные данные

По работе я часто участвую в созвонах. После них нередко нужно вернуться к какому‑то конкретному моменту, чтобы что-то проверить или уточнить. Обычно для этого приходится пересматривать запись и вручную искать нужный фрагмент, а особенно больно, если не делал никаких заметок.

Со временем мне захотелось упростить этот процесс: например, не переслушивать встречу целиком, а получать текстовую расшифровку и быстро находить в ней нужную информацию. Я посмотрел существующие решения, но многие из них оказались либо платными, либо неудобными.

В последнее время одним из моих основных развлечений стала разработка пет‑проектов. Поэтому я решил сделать собственное приложение для транскрипции с упором на UX и несколькими приятными фичами. Я назвал его Vocrify.

Создание

Сначала я изучил доступные технологии. Выяснилось, что есть открытые модели распознавания речи от OpenAI, Nvidia, Сбера. Кроме самой транскрипции, для меня было важно реализовать и диаризацию — разделение речи по спикерам, чтобы в готовом тексте было понятнее, кто именно говорит.

В результате выстроился такой процесс обработки: сначала приложение распознает речь, затем разделяет реплики по спикерам, а после этого объединяет все это в единые текстовые сегменты.

Еще одним важным требованием была приватность. Так как, в этом приложении возможно придется делать транскрипции созвонов, которые могут содержать чувствительную информацию, то мне очень не хотелось, чтобы данные отправлялись во внешние сервисы, поэтому изначально ориентировался на полностью локальную обработку. Именно поэтому приложение было сделано как десктопное на Tauri (под капотом Rust).

Для самой обработки видео/аудио можно использовать как видеокарту, так и процессор. Конечно, видеокарта тут сильно предпочтительнее

Итоги и планы

В итоге у меня получилось open-source приложение для Windows (код доступен на Github), которое позволяет сделать локальную транскрипцию и диаризацию аудио и видеофайлов, просмотреть результат в удобном интерфейсе и при необходимости экспортировать текст в нужный формат.

Из планов на будущее улучшать скорость и качество работы приложения, исправлять баги, возможно добавлять какие-то новые модели, если они будут появляться.

badge
banner (Header)

description

banner (Header)

заголовок discussed

«Я сама высказала мысль о разводе»: как отделить свое счастье от счастья партнера

«Я сама высказала мысль о разводе»: как отделить свое счастье от счастья партнера

234
Мнение: алиментное рабство — миф

Мнение: алиментное рабство — миф

218
Лучшие Айфоны: 7 вари­антов

Лучшие Айфоны: 7 вари­антов

157
Forbes и РБК: Мин­цифры обяжет опе­раторов ввести плату за исполь­зование через VPN больше 15 Гб ​трафика в месяц

Forbes и РБК: Мин­цифры обяжет опе­раторов ввести плату за исполь­зование через VPN больше 15 Гб ​трафика в месяц

131
заголовок readers-post-gallery