6 способов перевести аудио и видео в текст
Видео с субтитрами и текстовым описанием набирают больше просмотров — они удобны для пользователей и хорошо влияют на SEO-оптимизацию: увеличивают трафик, улучшают индексацию аудиовизуального контента и количество входных ссылок. Перевести аудио и видео в текст можно разными способами. В статье разберем шесть удобных способов расшифровки.
Транскрибация — это процесс прослушивания аудиозаписи и расшифровки услышанного вручную или автоматически. Предположим, вам передали аудио или видеофайл с объяснениями. Нужно прослушать и перевести аудио и видео в текст, сохранив смысл и авторскую подачу. Можно долго слушать, запоминать, делать паузы в аудио или видео и печатать текст на слух или использовать специальную программу.
Её задача — грамотно перевести и отредактировать аудио и видео в другой формат: убрать слова-паразиты, неправильные фразы, паузы и шум. Готовый текст должен состоять из логичных фраз, построенных по правилам русского языка.
Зачем нужна транскрибация
Услуги транскрибаторов востребованы в бизнес-среде и сфере digital. В основном расшифровку аудио и видео в текст используют:
- При передаче знаний. Выступления экспертов, записи эфиров, аудио-сообщения транскрибируют для подготовки статей и заметок в блоги, написания книг и других способов передачи материалов.
- В продвижении. Транскрибация помогает готовить уникальный контент на основе аудио и видео материалов: собирать экспертные мнения, мысли, объяснять сложные темы простыми словами, готовить воронки продаж и продающие тексты.
- В блоггерстве. Транскрибация нужна видеоблогерам при подготовке субтитров к роликам для плохо слышащих людей и тех, кто предпочитает смотреть контент без звука.
- В продажах. При создании скриптов продаж и стандартизированных ответов на разные вопросы удобно трансформировать телефонный разговор и записи видео-конференций.
Сетевые сервисы для преобразования речи в текст
В сети существует множество сервисов, позволяющих перевести речь в текст в режиме online. Практически все они предназначены для работы с браузером Google Chrome. Это связано с рядом причин, в частности данный браузер хорошо работает с « WebSpeech API ». Специальным программным интерфейсом, позволяющим распознавать речь с помощью функционала современного навигатора. Если вы попытайтесь запустить сервис распознавания на другом браузере (особенно не из семейства «Хромиум»), то вам порекомендуют установить Гугл Хром на ваш ПК.
Каждый из сервисов при попытке его активации запросит у вас доступ к микрофону. Без указанного доступа ресурс вас попросту не услышит.
Давайте разберём несколько популярных сервисов.
VoiceNote
- Сайт программы: voicenote.in
- Цена: бесплатно
- Платформа: сервис для работы в среде Microsoft Windows
VoiceNote — онлайн-сервис «2 в 1», предоставляющий пользователю возможность набора текста голосом онлайн в сочетании с мультифункциональным блокнотом для сохранения заметок. На платформе можно работать как онлайн, так и автономно, однако в этом случае распознавание речи будет невозможно — из числа функций будут доступны только редактирование словаря и создание текста в блокноте.
Для работы с сервисом пользователю понадобится устойчивое сетевое подключение и корректно настроенный микрофон. Интерфейс VoiceNote минималистичный без лишних наворотов, предусматривает 3 раздела: блокнот, редактирование персонального словаря и блок установки параметров.
Набранный в основном поле текст можно сохранить как заметку или загрузить в виде файла на жесткий диск. Словарь дает возможность добавлять варианты автозамены на русском и английском языке. Меню параметров предназначено для настройки размера шрифта и рабочего пространства, цвета текста и фона интерфейса. Дополнительно пользователь может добавить дату в заголовок созданной заметки или разместить ее в тексте, настроить микрофон и сменить тему оформления.
Онлайн-сервис распознавания речи поддерживает одно сочетание горячих клавиш для старта и остановки распознавания голоса — Ctrl + пробел. Пользователям также доступна установка расширения для браузера Google Chrome.
VoiceNote поддерживает более 20 языков, включая экзотические африкаанс, китайский, японский и хинди.
Главные недостатки сервиса — рекламные баннеры сверху и снизу рабочего пространства с тенденцией к повторному появлению после каждой перезагрузки страницы.
Cloud Speech-to-Text
Мощный, но в то же время платный инструмент от разработчиков Google. В его работе используются технологии машинного обучения для распознавания коротких фраз и длительных аудиозаписей.
Cloud Speech-to-Text предоставляет пользователям расшифровку аудиозаписей в текст путем применения моделей нейронной сети через простой к понимаю API. Сервис может использоваться для голосовых команд управления, транскрибации аудио и прочих задач.
На стартовой странице сервиса можно провести распознавание с файла или микрофона без регистрации. Это позволит оценить качество его работы. Cloud Speech-to-Text умеет работать со 120 языками. Отрезок из аудиокниги на русском языке был транскрибирован практически идеально, исключение составили только несколько слов, которые было сложно разобрать даже человеческому уху.
Сервис можно смело рекомендовать, если перевод голоса в текст требуется постоянно в ходе профессиональной деятельности или по работе. Попробовать полный функционал можно на бесплатной основе, предварительно согласившись с правилами и предоставив данные кредитной карты.
Sobolsoft
Данное ПО поможет вам добиться хороших результатов преобразования аудио в текст. И программа подойдет в первую очередь тем, кто хочет получить профессиональный результат. Хотя и программа отлично справляется со своей задачей, для ее использования придется купить лицензию. Хотя для ознакомления вы можете попробовать демо версию.
Если вы хотите использовать для конвертации свой смартфон, то в таком случае мы рекомендуем вам обратить внимание на такое приложение, как Speechnotes. Это хороший вариант для владельцев смартфонов на Android. У него достаточно высокий рейтинг и много хороших отзывов. Данное приложение бесплатное и оно достаточно неплохо конвертирует аудио в текст.
Программа Express Scribe (рекомендую)
Скачать программу Express Scribe (официальный сайт)
К сожалению, нет версии этой программы на русском языке, но она очень простая, интуитивно понятная и бесплатная.
Основные преимущества:
- Удобное поле для набора текста. Не нужно переключаться между проигрывателем и текстовым документом.
- Изменение скорости проигрывания звуковой дорожки, чтобы успевать писать под диктовку.
- Настраиваемые горячие клавиши, позволяющие воспроизводить, останавливать и перематывать запись.
- Адаптирован для работы с Word.
- Расстановка тайм-кодов.
Недостатки:
- На английском языке. Хотя это ни капли не мешает в работе.
В следующей статье я подробно разберу как в ней работать и какие горячие клавиши использовать.
Проверка и настройка микрофона
Прежде всего подключите микрофон к компьютеру. Если вы хотите использовать встроенное устройство ноутбука или веб-камеры, то ничего подключать не надо. Затем найдите на панели уведомлений значок динамика. Он может быть спрятан под галочкой.
Кликните по значку динамика правой кнопкой и выберите пункт «Записывающие устройства». Это откроет список оборудования, которое можно использовать для записи звука. В этом списке должен быть и ваш микрофон вне зависимости от того, подключен он отдельно или встроен в ноутбук.
Если в списке записывающих устройств пусто, кликните на свободном месте правой кнопкой мышки и отметьте пункты «Показывать отключенные устройства» и «Показывать отсоединенные устройства». После того как микрофон появится в списке, откройте правым кликом его меню и выберите опцию «Включить». Также убедитесь, что он назначен устройством по умолчанию.
Удостовериться в том, что система воспринимает звук с микрофона, очень просто: скажите в него что-нибудь. Если справа появляются зелёные полосы, значит всё готово к голосовому вводу. Попробуйте говорить тише или громче — вы заметите, как количество зелёных полос меняется в зависимости от громкости голоса.
При желании можно попробовать изменить стандартные параметры микрофона, добившись некоторого улучшения качества записи. Для этого:
Количество опций для улучшения зависит от того, какая звуковая карта установлена на вашем компьютере. К сожалению, некоторые из них не имеют вообще никаких параметров для настройки, кроме управления громкостью и усилением. Но для голосового ввода это не критично — главное, чтобы система в принципе воспринимала звук через микрофон.
Почему не стоит пользоваться программами для транскрибации аудио в текст?
Если цените свое время и не хотите тратить долгие часы на редактирование текста, то программами для преобразования аудио в текст лучше не пользоваться и делать выбор в пользу профессиональных транскрибаторов. Этот совет не актуален только в том случае, если голос на записи идеально четкий, внятный и медленный, а фоновые шумы отсутствуют. Если вы не уверены в качестве своей записи или произношения — обращайтесь к человеку, а не надейтесь на программу.
- Во-первых, если вы воспользуетесь услугами профессионального транскрибатора, тогда вам не придется волноваться за качество своего текста: вероятность того, что вы найдете в нем орфографические, пунктуационные или логические ошибки, крайне мала.
- Во-вторых, специалисту неважно, присутствуют ли у вас на записи шумы или другие “артефакты” (акцент, дефекты речи, скорость говорения или четкость произношения) — он в любом случае сделает качественный перевод аудио в текст (если, конечно же, на записи можно вообще что-то разобрать).
- В-третьих, транскрибатор возьмет в работу практически любые форматы аудио- и видеофайлов.
Естественно, такое удовольствие не бесплатное. Однако все знают про житейскую истину, что скупой платит дважды. Поэтому лучше перестраховаться и воспользоваться услугами живого человека, желательно с филологическим образованием.
Автоматический перевод голоса в текст: 3 онлайн сервиса
Сейчас на рынке достаточно программ для перевода голоса в текст, основной их недостаток в том, что преимущественно они платные, а для целей транскрибации подходят не очень. Поэтому достаточно будет существующих онлайн сервисов, где услуга распознавания речи предоставляется бесплатно.
Google Docs
Гугл документы – известный сервис от Google. Все что нужно, аккаунт и быстрый интернет. По сути, это тот же Word, только бесплатный и не установленный на ваш компьютер.
Здесь есть функция голосового ввода, которой иногда пользуются транскрибаторы для упрощения работы. Они через наушники слушают запись и надиктовывают ее в микрофон. Сервис самостоятельно расшифровывает речь и набирает текст.
Качество результата такой Гугл-транскрибации непредсказуемо. Иногда программа достаточно корректно переводит речь в текст, но чаще ошибок слишком много и редактура может занять больше времени, чем самостоятельный набор.
Для работы нужно зайти на стартовую страницу Google Docs через свой аккаунт, создать новый документ, подключить голосовой ввод (Инструменты – Голосовой ввод, или Ctrl+Shift+S). Появится кнопка записи в виде микрофона, когда она активирована, то становится красной.
Для такого способа транскрибации нужны наушники, микрофон (встроенный микрофон на ноутбуке использовать можно, но нежелательно) и тишина.
Внимание! Запись иногда обрывается, за этим надо следить. Нельзя переходить на другие вкладки в браузере, в этом случае сервис останавливает работу.
Неоспоримые плюсы сервиса Google документы в том, что он автоматически сохраняет набранный текст, даже если у вас внезапно отключат электричество, ваш текст останется в полной сохранности на том месте, где вы прервались. Удобно, что редактировать полученный текст можно прямо на сервисе – для этого он обладает полным набором функций.
Speechpad
Голосовой блокнот создавался российскими разработчиками специально для распознавания речи и перевода ее в текст, поэтому его чаще используют для транскрибации. Здесь все на русском языке, программа распространена и известна, поэтому в интернете множество инструкций по ее использованию.
Для записи нужно нажать кнопку «включить запись», она станет оранжевой, что значит, что запись началась. Минимально отредактировать получившийся текст можно прямо на сайте.
Пишут, что сервис корректно работает только через браузер Chrome, не врут, на Yandex-браузере были сбои в работе этого сервиса, хотя он и пытался.
Для транскрибации в голосовой блокнот можно загрузить аудио- или видеофайлы. Но, боюсь, это сработает только в случае очень хорошего качества звукозаписи.
Dictation.io
Иностранный сервис, поддерживающий в числе многих и русский язык.
Интерфейс предельно прост. Нажимаете кнопку Start, она подкрашивается в красный цвет, это значит, что запись началась.
Здесь же текст можно отредактировать, но функций для форматирования немного, лучше этим заниматься в специальных текстовых редакторах. Программа поддерживает 30 языков. Работа с сервисом корректна в браузере Chrome.
Результаты, полученные с помощью трех перечисленных сервисов, приведу в таблице.
Для оправдания бреда, выданного Speechpad и Dictation, хочу уточнить, что для эксперимента со всеми тремя сервисами использовался встроенный микрофон ноутбука. Хотя Google Docs это не помешало выдать приличный результат особенно на фоне двух последних сервисов.
Итак, исходный текст:
Жили-были три брата, три маленьких поросенка. Все лето они играли на солнышке и нежились в лужах и не заметили, как наступила осень.
– Скоро зима, пора нам строить теплый дом, – сказал старший брат.
– Успеется! – ответили братья, которым не хотелось браться за работу.
Тогда старший брат принялся таскать камни, месить глину и не спеша строить себе надежный, прочный дом, в котором можно было бы укрыться от ветра, дождя, мороза и злого волка.