Программы для транскрибации: какую выбрать + сравнительный тест сервисов
Перевод аудиозаписей в текст – востребованная услуга, которой пользуются в разных сферах: для расшифровки семинаров и лекций, составления скриптов продаж, создания субтитров к видео и т.д.
Транскрибация – не такое простое дело, как кажется на первый взгляд. Этот процесс требует времени и усидчивости. В среднем на транскрибацию минуты записи вручную уходит 6-7 минут, и то если Вы достаточно быстро печатаете.
В этой статье рассмотрим, какие программы помогут Вам добиться качественного результата быстро и без лишних трудностей.
Что такое голосовой ввод?
Это метод набора текста при помощи речи, которая передаётся через микрофон. Эта тема очень актуальная для тех, кто работает с большими объёмами, например, блоггеры, копирайтеры, а также люди с ограниченными возможностями. Или для тех, кто ещё не успел овладеть навыком быстрой печати на клавиатуре компьютера.
Согласитесь, что надиктовывать голосом намного удобней и проще, чем печатать вручную?
6 сервисов для транскрибации
Конвертеры — специальные онлайн-сервисы для автоматической транскрибации. Большая часть из них работает при помощи нейросетей, преобразующих звук в текст. У платных программ качество перевода аудио и видео лучше, но это преимущество условно. Если расшифровываемая аудиозапись или видео изначально высокого качества, с преобразованием речи в текст справится даже бесплатный сервис.
Google Docs
Google Docs — тот же Word, только онлайн, бесплатный и не требующий установки. Транскрибатор через наушник или микрофон прослушивает аудио и видеозапись, а Google Docs расшифрует её.
Для запуска функции голосового ввода в приложении перейдите во вкладку «Инструменты» или нажмите CTRL+Shift+S:
В левой части экрана появится значок микрофона с выпадающим меню. До запуска видео или аудио выберите язык расшифровываемого текста. Запись активирована, если значок красного цвета:
Для расстановки знаков препинания в тексте помечайте эти места голосом: точка, запятая, абзац и т.д. Функция поддерживается на русском, испанском, английском, французском и немецком языках.
Преимущества:
- Бесплатный сервис, переводит на разные языки.
- Есть русская версия.
- Доступ к приложению могут иметь несколько человек одновременно.
- Приложение открывается с любого устройства, подключенного к интернету.
- Автоматически сохраняет расшифрованный материал.
- Есть возможность редактирования текста в том же документе.
- Для транскрибации аудио и видео нужны наушники, микрофон и тишина.
- Встроенный микрофон на ноутбуке подойдет, но качество расшифровки речи будет хуже.
- Результат расшифровки аудио и видео в текст непредсказуем: часто теряются слова при быстрой речи и воспроизведении бесед.
- Аудио, видео запись может обрываться.
- Нельзя переключаться между вкладками, приложение сразу выключается.
- Нельзя воспроизводить аудио и видео запись с компьютера.
- Медленная расшифровка речи.
Результат Google-транскрибации непредсказуем. Иногда приложение корректно расшифровывает аудио и видео, но чаще авторы переписывают текст из-за ошибок и несвязных фраз. Сервис расшифровки в Google Docs негативно реагирует на изменение тембра голоса на видео, слишком тихую или, наоборот, громкую речь.
Для успешной расшифровки текста четко проговаривайте фразы в микрофон.
Голосовой блокнот Speechpad
Голосовой блокнот Speechpad создан специально для расшифровки речи из аудио и видео в печатный текст. Приложение бесплатное, запускается в браузере Chrome с компьютера, смартфона и планшета.
Видео через микрофон транслируется в компьютер при нажатии кнопки «Включить звук». При активации «+Транскрибация» можно загрузить в сервис аудио или видео, а не воспроизводить речь отдельно. Speechpad поддерживает форматы: HTML 5 video, HTML 5 audio и медиа из Youtube.
Speechpad не расшифрует видео с тихим звуком, шумами и посторонними звуками. Хорошо работает при использовании профессионального внешнего микрофона.
При расшифровке каждые 20-30 секунд происходит буферизация видео и аудио. После перезагрузки ролик включается чуть раньше — на 1-2 секунды. Из-за этого текст повторяется и его нужно редактировать.
Преимущества:
- Бесплатное использование, есть русская версия.
- Для Android и iOS разработаны приложения.
- Есть расширение для браузера Chrome. После установки сервис переводит аудио и видео в любом окне.
- Пользователи могут сворачивать вкладку с блокнотом без боязни прервать расшифровку видео.
- Переводит видео на разные языки из форматов: HTML 5 и Youtube.
- Предусмотрена отдельная вкладка для генерации текста в виде субтитров.
- Работает только в Chrome.
- Часто зависает.
Для решения проблемы перейдите во вкладку «Поддержка» и сделайте интеграцию сервиса. Если не поможет — обращайтесь в техническую службу.
Результат расшифровки зависит от качества звуковой дорожки на видео, тембра голоса, особенностей дикции и шумов.
YouTube
Видеохостинг расшифровывает видеозапись в режиме онлайн и создает автоматические субтитры. YouTube — единственный видеосервис, в котором текст воспроизводится по желанию зрителя. При этом есть проблемы с передачей смысла:
- Слова на иностранном языке переделываются под установленный язык, но не переводятся.
- Заминки в речи сервис интерпретирует по-своему, часто угадывая слова.
- Быструю речь не понимает.
Расшифровка видео Ютуб запускается нажатием кнопки «Субтитры» в панели настроек:
Преимущества:
- Спикеры редактируют видео и настраивают отображение текста в одном месте.
- Бесплатный.
- Прост в использовании.
- Поддерживает разные языки, в том числе русский.
- Текст непонятен: много разрывов, непонятных слов.
- Подходит для воспроизведения только качественных роликов.
- Скопировать текст в отдельный файл нельзя.
DownSub
Теперь разберем, как транскрибировать текст из YouTube-ролика, чтобы его можно было редактировать. Скачать текстовую расшифровку и перевести ее на другой язык поможет сервис DownSub. Вставьте ссылку на ролик в отдельную строку и начните загрузку.
По окончании работы появятся варианты для скачивания текста — STR и TXT.
Vocalmatic
Vocalmatic — еще один сервис для автоматического распознавания речи с простым интерфейсом и возможностью редактирования текста. Сервис условно бесплатный, для запуска нужно зарегистрироваться через электронную почту, аккаунт Google или LinkedIn. Сервис бесплатно обрабатывает файлы длиной 30 минут в формате mp3. Vocalmatic англоязычный.
Чтобы попасть на страницу загрузки файлов жмите на New Transcription.
Интерфейс программы интуитивно понятен:
- Выбираете тип документа.
- Загружаете ролик в формате mov, mp4, webm, ogg.
- Настраиваете язык, на котором воспроизводится запись.
- Выбирайте формат выходного файла: по умолчанию или STR — субтитры.
- Жмите «Начать». Готовая расшифровка хранится в личном кабинете в течение пяти дней. Ссылка на файл приходит на электронную почту, указанную при регистрации.
Преимущества:
- Переводит готовые файлы.
- Простой интерфейс.
- Работает с аудио и видеофайлами в режиме: .mp3, .flac, .wav, .mp4, .mov, .ogg, .webm.
- Конвертирует аудио в текст при помощи искусственного интеллекта.
- Поддерживает автоматическую расшифровку на 100 языках.
Сервис анализирует аудиозапись секунда за секундой, определяет, какое слово было произнесено за секунду, и сохраняет каждое слово в расшифровке этой записи. После завершения процесса компьютер выдает набор распознанных слов, для редактирования которых есть встроенный редактор.
Express Scribe Transcription
Express Scribe — профессиональный сервис, популярный у тех, кто расшифровывает аудио и видеозаписи в текст. Программа условно бесплатная, обрабатывает файлы в wav, mp3, wma и dct форматах. Может воспроизводить файлы с переменной скоростью и совместима с большинством текстовых редакторов.
Программа запускается в фоновом режиме, пользователю не надо переключаться между вкладками при прослушивании записи и наборе текста. Автор сам настраивает скорость воспроизведения материала и регулирует качество звука. Текст набирается в отдельном окне программы, а затем копируется в любой редактор для последующей корректировки.
Express Scribe совместима с сервисами распознавания речи Speechpad, Google Docs и т.д. Может расшифровывать текст автоматически и вручную.
Преимущества:
- Есть возможность настройки скорости воспроизведения, качества звука, корректировки фонового шума и высоких частот.
- Интуитивно понятный интерфейс.
- Есть функция закладок для установки их в нужных местах аудиофайла.
- Можно набирать текст в окне плеера и включить мини-формат Scribe Mini и работать в Word.
- Управление горячими клавишами.
- Совместима с большинством программ для перевода.
- Не поддерживает русскую версию.
- В бесплатной версии нет возможности расшифровки видеофайлов.
Для извлечения звуковой дорожки используйте специальные плееры. Например, Freemake Video Converter.
- Нет автоматического сохранения. Если текст из плеера случайно удалится, восстановить его не получится.
- Не набирает текст автоматически сама.
Это единственное приложение из списка, в которой текст распознается вручную. Если качество записи плохое, есть помехи или тему обсуждают несколько человек одновременно с транскрибации могут возникать проблемы. В таком случае доверить перевод видео в текст только программе не получится. Транскрибатор должен убедиться, что правильно понял услышанное и верно донес материал. Функции замедления и корректировки звука в Express Scribe Transcription будет незаменима.
Speechpad.ru – инструмент для распознавания речи
Сервис speechpad.ru – один из наиболее популярных в Рунете сервисов для перевода голоса в текст. Сервис позиционирует себя как блокнот для речевого ввода, позволяющий надиктовывать предложения, а также транскрибировать текст из аудио и видео файлов.
Для работы с сервисом выполните следующее:
- Перейдите на speechpad.ru;
- Выберите внизу язык распознавания (например, «Русский»);
- Нажмите внизу на кнопку «Включить запись»;
- Разрешите сайту доступ к вашему микрофону, и начните диктовку текста. Учтите, что все знаки препинания в тексте проговориваются голосом («запятая», «точка», «тире» и др.). То же самое и с абзацами.
- Для скачивания результата в формате .txt нажмите на «Скачать»;
- Для проведения считки текста с аудио или видеофайла нажмите на кнопку «+Транскрибацию».
Reader 2.30
Название: Reader 2.30 Размер: 0,33 mb Разработчик: BorPas-Soft Операционка: Windows 7, Vista, XP Язык интерфейса: Rus Дата: 19-10-2016, 18:31
Reader — бесплатная и предельно простая, а также полезная программа, которая создана для чтения книг в голос. Текст представляется в виде книги, а также имеется возможность работать с кодировками текста. Также имеется синтезатор речи в WAV формат и возможность подключать словарь. .
Плагины для Chrome
Это пятый способ конвертировать голос в текст. У Chrome есть несколько бесплатных расширений, которые аналогичны функции «голосовой ввод» в Google Docs. Расскажу про три самых популярных плагина – VoiceIn Voice Typing, Voice to Text и Speech Recognition Anywhere.
Расширение VoiceIn Voice Typing работает со 120 языками. Есть бесплатная версия, которая, правда, существенно ограничивает возможности конвертации. Если купить плагин, можно не только диктовать текст, но даже заполнять формы и оставлять комментарии на сайтах. Voice to Text поддерживает 60 языков и работает аналогично VoiceIn Voice Typing. Видео расшифровывает не самым лучшим образом, любой шум приводит к ошибкам в тексте.
Плагин Speech Recognition Anywhere также позволяет заполнять формы, оставлять комментарии и делать многие другие вещи, не прибегая к использованию клавиатуры. Можно даже открывать страницы в Chrome с помощью голосовых команд. Но расширение стоит денег.
Ручной перевод
Итак, самое простое что можно сделать, это открыть какой-нибудь текстовый редактор. Например, блокнот, Word или Гугл Докс. Далее вам нужно будет включить аудио или видео и просто вводить эту информацию вручную в виде текста. Этот способ можно использовать, но он потребует от вас много времени. Поэтому, если вы не хотите тратить свое время на это, то лучше конечно рассмотреть другие варианты из нашего списка.
Для начала попробуйте данный метод, вполне возможно, что его вам будет достаточно и вам не придется использовать другие программы или сервисы. Преимущество этого метода в том, что его можно использовать как в Ворде так и в Гугл Докс.
Что нужно для старта?
Итак, для начала вам понадобиться сама запись, которую вы хотите транскрибировать в текст. После чего вам нужно будет включить функцию голосового ввода в текстовом редакторе. В Ворде вам придется включить диктовку, если у вас Макбук, то онлайн-распознавание речи. После того, как вы выполнили все необходимые настройки, то можете приступать к голосовому набору. Включите микрофон и воспроизведите ваше аудио или видео файл. Микрофон вы можете использовать как встроенный, так и гарнитуру.
Почему не стоит пользоваться программами для транскрибации аудио в текст?
Если цените свое время и не хотите тратить долгие часы на редактирование текста, то программами для преобразования аудио в текст лучше не пользоваться и делать выбор в пользу профессиональных транскрибаторов. Этот совет не актуален только в том случае, если голос на записи идеально четкий, внятный и медленный, а фоновые шумы отсутствуют. Если вы не уверены в качестве своей записи или произношения — обращайтесь к человеку, а не надейтесь на программу.
- Во-первых, если вы воспользуетесь услугами профессионального транскрибатора, тогда вам не придется волноваться за качество своего текста: вероятность того, что вы найдете в нем орфографические, пунктуационные или логические ошибки, крайне мала.
- Во-вторых, специалисту неважно, присутствуют ли у вас на записи шумы или другие “артефакты” (акцент, дефекты речи, скорость говорения или четкость произношения) — он в любом случае сделает качественный перевод аудио в текст (если, конечно же, на записи можно вообще что-то разобрать).
- В-третьих, транскрибатор возьмет в работу практически любые форматы аудио- и видеофайлов.
Естественно, такое удовольствие не бесплатное. Однако все знают про житейскую истину, что скупой платит дважды. Поэтому лучше перестраховаться и воспользоваться услугами живого человека, желательно с филологическим образованием.
Автоматический перевод голоса в текст: 3 онлайн сервиса
Сейчас на рынке достаточно программ для перевода голоса в текст, основной их недостаток в том, что преимущественно они платные, а для целей транскрибации подходят не очень. Поэтому достаточно будет существующих онлайн сервисов, где услуга распознавания речи предоставляется бесплатно.
Google Docs
Гугл документы – известный сервис от Google. Все что нужно, аккаунт и быстрый интернет. По сути, это тот же Word, только бесплатный и не установленный на ваш компьютер.
Здесь есть функция голосового ввода, которой иногда пользуются транскрибаторы для упрощения работы. Они через наушники слушают запись и надиктовывают ее в микрофон. Сервис самостоятельно расшифровывает речь и набирает текст.
Качество результата такой Гугл-транскрибации непредсказуемо. Иногда программа достаточно корректно переводит речь в текст, но чаще ошибок слишком много и редактура может занять больше времени, чем самостоятельный набор.
Для работы нужно зайти на стартовую страницу Google Docs через свой аккаунт, создать новый документ, подключить голосовой ввод (Инструменты – Голосовой ввод, или Ctrl+Shift+S). Появится кнопка записи в виде микрофона, когда она активирована, то становится красной.
Для такого способа транскрибации нужны наушники, микрофон (встроенный микрофон на ноутбуке использовать можно, но нежелательно) и тишина.
Внимание! Запись иногда обрывается, за этим надо следить. Нельзя переходить на другие вкладки в браузере, в этом случае сервис останавливает работу.
Неоспоримые плюсы сервиса Google документы в том, что он автоматически сохраняет набранный текст, даже если у вас внезапно отключат электричество, ваш текст останется в полной сохранности на том месте, где вы прервались. Удобно, что редактировать полученный текст можно прямо на сервисе – для этого он обладает полным набором функций.
Speechpad
Голосовой блокнот создавался российскими разработчиками специально для распознавания речи и перевода ее в текст, поэтому его чаще используют для транскрибации. Здесь все на русском языке, программа распространена и известна, поэтому в интернете множество инструкций по ее использованию.
Для записи нужно нажать кнопку «включить запись», она станет оранжевой, что значит, что запись началась. Минимально отредактировать получившийся текст можно прямо на сайте.
Пишут, что сервис корректно работает только через браузер Chrome, не врут, на Yandex-браузере были сбои в работе этого сервиса, хотя он и пытался.
Для транскрибации в голосовой блокнот можно загрузить аудио- или видеофайлы. Но, боюсь, это сработает только в случае очень хорошего качества звукозаписи.
Dictation.io
Иностранный сервис, поддерживающий в числе многих и русский язык.
Интерфейс предельно прост. Нажимаете кнопку Start, она подкрашивается в красный цвет, это значит, что запись началась.
Здесь же текст можно отредактировать, но функций для форматирования немного, лучше этим заниматься в специальных текстовых редакторах. Программа поддерживает 30 языков. Работа с сервисом корректна в браузере Chrome.
Результаты, полученные с помощью трех перечисленных сервисов, приведу в таблице.
Для оправдания бреда, выданного Speechpad и Dictation, хочу уточнить, что для эксперимента со всеми тремя сервисами использовался встроенный микрофон ноутбука. Хотя Google Docs это не помешало выдать приличный результат особенно на фоне двух последних сервисов.
Итак, исходный текст:
Жили-были три брата, три маленьких поросенка. Все лето они играли на солнышке и нежились в лужах и не заметили, как наступила осень.
– Скоро зима, пора нам строить теплый дом, – сказал старший брат.
– Успеется! – ответили братья, которым не хотелось браться за работу.
Тогда старший брат принялся таскать камни, месить глину и не спеша строить себе надежный, прочный дом, в котором можно было бы укрыться от ветра, дождя, мороза и злого волка.