Перевод аудио в текст: ТОП 5 программ для распознавания речи
С каждым годом программы для транскрибации (преобразования речи в текст) набирают все большую популярность. Почему?
- Во-первых, они намного быстрее справляются с той же задачей, что и транскрибатор (а вот по поводу качества мы поговорим чуть позже).
- Во-вторых, большинству из них не надо платить. В то время как профессиональный транскрибатор, который сделает вам качественный текст, просит настоящие деньги.
- В-третьих, если вы прежде не пользовались такими услугами и у вас нет знакомых, то легко можете наткнуться на дилетанта. В итоге, вы потеряете свои время и деньги.
А вот с приложениями для перевода аудио в текст всех вышеперечисленных проблем никогда не будет. Так думает большинство людей, которые прежде не пользовались ими… Что же лучше: профессиональный транскрибатор или приложение? Обсудим чуть ниже, а сейчас посмотрите нашу подборку лучших софтов, которые переведут ваше аудио в текст с минимальными ошибками.
Преобразование голоса в текст при помощи MSpeech
MSpeech — программа для распознавания речи с открытым исходным кодом, понимающая более 50 языков. В качестве модуля распознавания используется Google Voice Api (тот же самый, что и в мобильных устройствах под управлением Android). Т.е. приложение не работает без подключения к интернету.
В отличие от предыдущей программы, MSpeech не преобразовывает речь в режиме реального времени. Вместо этого она сначала осуществляет запись голоса пользователя, отправляет его на сервисы Google, где происходит преобразование, а затем вписывает полученный результат в текстовое поле любого активного окна.
Программа MSpeech очень проста в использовании:
- Запускаем функцию записи голоса, используя горячие клавиши (по умолчанию — «Ctrl + Alt + F10») либо путем нажатия на кнопку «Начать запись» в основном окне приложения.
- По завершению произношения речи просто выключаем запись. Программа автоматически вставит текст в открытый текстовый редактор или текстовое поле, на котором находится фокус.
Также MSpeech позволяет запускать и останавливать выполнение любых внешних программ, открывать файлы, выполнять команды командной строки Windows и преобразовывать текст в голос. Команды можно создавать самому в неограниченном количестве, используя соответствующую функцию в настройках приложения.
Дополнительные инструменты для голосового ввода текста
Яндекс.Клавиатура и GBoard (Google Клавиатура)
Если вы большую часть времени работаете со смартфона и хотите использовать возможность голосового ввода текста, воспользуйтесь функционалом голосового ввода, который есть в клавиатурах от Google и Яндекс:
- GBoard — клавиатура от Google. Для Android и iOS;
- Яндекс.Клавиатура. Для Android и iOS.
Так вы сможете надиктовывать текст в любом приложении, которое вы обычно используете для организации личных и рабочих заметок, задач и подобного (Google Keep, Notion, Trello и т. д.).
Воспользоваться голосовым вводом просто:
- Откройте нужное приложение (например, Google Keep) и создайте заметку;
- Откройте клавиатуру и нажмите на значок микрофона (ниже пример, как это сделать в GBoard);
- Начните диктовать заметку. Система распознает речь и преобразует ее в текст.
Голосовой ввод на GBoard (клавиатуре от Google)
Google Docs
Тем, кто много работает с Google Документами, пригодится встроенная функция голосового ввода (поддерживает русский язык).
Если вы еще не знали о ней, вот как ее включить: «Инструменты» → «Голосовой ввод».
Слева появится всплывающее окошко с выпадающим списком для выбора языка речи и кнопкой с иконкой микрофона.
Выберите нужный язык, нажмите на кнопку и начните диктовать текст.
6 сервисов для транскрибации
Конвертеры — специальные онлайн-сервисы для автоматической транскрибации. Большая часть из них работает при помощи нейросетей, преобразующих звук в текст. У платных программ качество перевода аудио и видео лучше, но это преимущество условно. Если расшифровываемая аудиозапись или видео изначально высокого качества, с преобразованием речи в текст справится даже бесплатный сервис.
Google Docs
Google Docs — тот же Word, только онлайн, бесплатный и не требующий установки. Транскрибатор через наушник или микрофон прослушивает аудио и видеозапись, а Google Docs расшифрует её.
Для запуска функции голосового ввода в приложении перейдите во вкладку «Инструменты» или нажмите CTRL+Shift+S:
В левой части экрана появится значок микрофона с выпадающим меню. До запуска видео или аудио выберите язык расшифровываемого текста. Запись активирована, если значок красного цвета:
Для расстановки знаков препинания в тексте помечайте эти места голосом: точка, запятая, абзац и т.д. Функция поддерживается на русском, испанском, английском, французском и немецком языках.
Преимущества:
- Бесплатный сервис, переводит на разные языки.
- Есть русская версия.
- Доступ к приложению могут иметь несколько человек одновременно.
- Приложение открывается с любого устройства, подключенного к интернету.
- Автоматически сохраняет расшифрованный материал.
- Есть возможность редактирования текста в том же документе.
- Для транскрибации аудио и видео нужны наушники, микрофон и тишина.
- Встроенный микрофон на ноутбуке подойдет, но качество расшифровки речи будет хуже.
- Результат расшифровки аудио и видео в текст непредсказуем: часто теряются слова при быстрой речи и воспроизведении бесед.
- Аудио, видео запись может обрываться.
- Нельзя переключаться между вкладками, приложение сразу выключается.
- Нельзя воспроизводить аудио и видео запись с компьютера.
- Медленная расшифровка речи.
Результат Google-транскрибации непредсказуем. Иногда приложение корректно расшифровывает аудио и видео, но чаще авторы переписывают текст из-за ошибок и несвязных фраз. Сервис расшифровки в Google Docs негативно реагирует на изменение тембра голоса на видео, слишком тихую или, наоборот, громкую речь.
Для успешной расшифровки текста четко проговаривайте фразы в микрофон.
Голосовой блокнот Speechpad
Голосовой блокнот Speechpad создан специально для расшифровки речи из аудио и видео в печатный текст. Приложение бесплатное, запускается в браузере Chrome с компьютера, смартфона и планшета.
Видео через микрофон транслируется в компьютер при нажатии кнопки «Включить звук». При активации «+Транскрибация» можно загрузить в сервис аудио или видео, а не воспроизводить речь отдельно. Speechpad поддерживает форматы: HTML 5 video, HTML 5 audio и медиа из Youtube.
Speechpad не расшифрует видео с тихим звуком, шумами и посторонними звуками. Хорошо работает при использовании профессионального внешнего микрофона.
При расшифровке каждые 20-30 секунд происходит буферизация видео и аудио. После перезагрузки ролик включается чуть раньше — на 1-2 секунды. Из-за этого текст повторяется и его нужно редактировать.
Преимущества:
- Бесплатное использование, есть русская версия.
- Для Android и iOS разработаны приложения.
- Есть расширение для браузера Chrome. После установки сервис переводит аудио и видео в любом окне.
- Пользователи могут сворачивать вкладку с блокнотом без боязни прервать расшифровку видео.
- Переводит видео на разные языки из форматов: HTML 5 и Youtube.
- Предусмотрена отдельная вкладка для генерации текста в виде субтитров.
- Работает только в Chrome.
- Часто зависает.
Для решения проблемы перейдите во вкладку «Поддержка» и сделайте интеграцию сервиса. Если не поможет — обращайтесь в техническую службу.
Результат расшифровки зависит от качества звуковой дорожки на видео, тембра голоса, особенностей дикции и шумов.
YouTube
Видеохостинг расшифровывает видеозапись в режиме онлайн и создает автоматические субтитры. YouTube — единственный видеосервис, в котором текст воспроизводится по желанию зрителя. При этом есть проблемы с передачей смысла:
- Слова на иностранном языке переделываются под установленный язык, но не переводятся.
- Заминки в речи сервис интерпретирует по-своему, часто угадывая слова.
- Быструю речь не понимает.
Расшифровка видео Ютуб запускается нажатием кнопки «Субтитры» в панели настроек:
Преимущества:
- Спикеры редактируют видео и настраивают отображение текста в одном месте.
- Бесплатный.
- Прост в использовании.
- Поддерживает разные языки, в том числе русский.
- Текст непонятен: много разрывов, непонятных слов.
- Подходит для воспроизведения только качественных роликов.
- Скопировать текст в отдельный файл нельзя.
DownSub
Теперь разберем, как транскрибировать текст из YouTube-ролика, чтобы его можно было редактировать. Скачать текстовую расшифровку и перевести ее на другой язык поможет сервис DownSub. Вставьте ссылку на ролик в отдельную строку и начните загрузку.
По окончании работы появятся варианты для скачивания текста — STR и TXT.
Vocalmatic
Vocalmatic — еще один сервис для автоматического распознавания речи с простым интерфейсом и возможностью редактирования текста. Сервис условно бесплатный, для запуска нужно зарегистрироваться через электронную почту, аккаунт Google или LinkedIn. Сервис бесплатно обрабатывает файлы длиной 30 минут в формате mp3. Vocalmatic англоязычный.
Чтобы попасть на страницу загрузки файлов жмите на New Transcription.
Интерфейс программы интуитивно понятен:
- Выбираете тип документа.
- Загружаете ролик в формате mov, mp4, webm, ogg.
- Настраиваете язык, на котором воспроизводится запись.
- Выбирайте формат выходного файла: по умолчанию или STR — субтитры.
- Жмите «Начать». Готовая расшифровка хранится в личном кабинете в течение пяти дней. Ссылка на файл приходит на электронную почту, указанную при регистрации.
Преимущества:
- Переводит готовые файлы.
- Простой интерфейс.
- Работает с аудио и видеофайлами в режиме: .mp3, .flac, .wav, .mp4, .mov, .ogg, .webm.
- Конвертирует аудио в текст при помощи искусственного интеллекта.
- Поддерживает автоматическую расшифровку на 100 языках.
Сервис анализирует аудиозапись секунда за секундой, определяет, какое слово было произнесено за секунду, и сохраняет каждое слово в расшифровке этой записи. После завершения процесса компьютер выдает набор распознанных слов, для редактирования которых есть встроенный редактор.
Express Scribe Transcription
Express Scribe — профессиональный сервис, популярный у тех, кто расшифровывает аудио и видеозаписи в текст. Программа условно бесплатная, обрабатывает файлы в wav, mp3, wma и dct форматах. Может воспроизводить файлы с переменной скоростью и совместима с большинством текстовых редакторов.
Программа запускается в фоновом режиме, пользователю не надо переключаться между вкладками при прослушивании записи и наборе текста. Автор сам настраивает скорость воспроизведения материала и регулирует качество звука. Текст набирается в отдельном окне программы, а затем копируется в любой редактор для последующей корректировки.
Express Scribe совместима с сервисами распознавания речи Speechpad, Google Docs и т.д. Может расшифровывать текст автоматически и вручную.
Преимущества:
- Есть возможность настройки скорости воспроизведения, качества звука, корректировки фонового шума и высоких частот.
- Интуитивно понятный интерфейс.
- Есть функция закладок для установки их в нужных местах аудиофайла.
- Можно набирать текст в окне плеера и включить мини-формат Scribe Mini и работать в Word.
- Управление горячими клавишами.
- Совместима с большинством программ для перевода.
- Не поддерживает русскую версию.
- В бесплатной версии нет возможности расшифровки видеофайлов.
Для извлечения звуковой дорожки используйте специальные плееры. Например, Freemake Video Converter.
- Нет автоматического сохранения. Если текст из плеера случайно удалится, восстановить его не получится.
- Не набирает текст автоматически сама.
Это единственное приложение из списка, в которой текст распознается вручную. Если качество записи плохое, есть помехи или тему обсуждают несколько человек одновременно с транскрибации могут возникать проблемы. В таком случае доверить перевод видео в текст только программе не получится. Транскрибатор должен убедиться, что правильно понял услышанное и верно донес материал. Функции замедления и корректировки звука в Express Scribe Transcription будет незаменима.
Speechpad
Плагин для браузера Google Chrome (есть способ установки для всех браузеров на движке Chromium) для записи голоса и его последующего преобразования в заметку. Голосовой ввод текста выполняется с использованием Google API, поэтому функция доступна только при активном подключении к интернету. Сервис поддерживает сохранение всех ранее введённых текстовых заметок, их экспорт в Гугл Документы.
За счёт того, что это не отдельная программа, а надстройка для браузера, использовать её можно не только в среде Windows, но и в Linux-дистрибутивах, MacOS. При этом Speechpad печатает текст не только из речи в реальном времени, но и умеет его распознавать в аудиофайлах, видео (используя звуковую дорожку). Преобразование довольно точное, но вот с пунктуационными знаками часто возникают неточности, поэтому без последующего редактирования не обойтись.
Автоматизировать транскрибацию
Конечно, в эпоху нейросетей не обошлось без решений для автоматического перевода звука в текст.
Google Docs
В Гугл Документах есть встроенный инструмент для расшифровки аудио с микрофона (файлы не транскрибирует). Можно вызвать его через Ctrl+Shift+S, далее выбрать язык и нажать на значок микрофона.
Очень плохо справляется с тихой и шумной диктофонной записью, достаточно хорошо — с диктовкой в микрофон.
Главный недостаток — работает только в активном окне Google Docs, то есть наговорить что-то с другой вкладки (или включить запись на компьютере) не получится.
Чтобы добавить в текст пунктуацию, нужно надиктовывать знаки голосом: точка, запятая, вопросительный/восклицательный знак, новая строка, новый абзац, кавычки. Это работает в большинстве приложений для диктовки (иногда для этого нужно найти нужную галку в настройках).
Пример работы голосового ввода Google Docs
Speechpad
Расшифровывает только звук с микрофона, поэтому тот должен быть хорошего качества. Поддерживается Google Chrome, но есть еще приложения для iOS и Android. Плюс возможна интеграция с Windows, Mac и Linux — чтобы обеспечить голосовой ввод в любом текстовом поле. Хороший звук понимает достаточно хорошо, плохой — очень плохо.
Фрагмент YouTube-ролика хорошо перевел в текст, в общем и целом, редактуры не очень много
RealSpeaker
Платный онлайн-расшифровщик. Работает только с готовыми файлами, что-то наговорить с микрофона здесь нельзя. Переводит аудио в текст бесплатно, но только если запись длится до 1,5 мин. Далее стоимость — 8 руб. за минуту, максимальная продолжительность аудио — 180 мин. Поддерживается почти 40 языков, включая русский и украинский.
Интересно, что в разделе «Мои медиа» доступны транскрибированные тексты других пользователей. Можно приблизительно оценить качество расшифровки, подумать, стоит ли платить за нее деньги. Это же удобство — пугает. Никакой приватности, можно даже редактировать и удалять чужие тексты.
Оплаченный текст будет доступен только вам. Интересно, что при загрузке видео результат можно скачать сразу в формате субтитров (*.srt).
Сервис сейчас в бета-версии, многие функции вызывают вопросы. Например, нельзя удалить загруженный файл из облака, но со временем файлы удаляются автоматически.
Пример транскрипта другого пользователя, текст доступен абсолютно всем
Dictation
Тоже онлайн-сервис для распознавания речи. Бесплатный. Работает только со звуком с микрофона, готовые записи загрузить нельзя. Понимает не только русские слова, но и десятки команд («тире», «новая строка» и др.).
Включает простейший встроенный редактор — сразу меняйте форматирование, оформляйте списки и др. Не переключаясь, можно отправить текст на e-mail и в соцсети, сохранить на компьютер.
Четкую речь блогера, подготовленную профессионально и в тишине, распознал почти идеально. Речь героя интервью из того же YouTube-ролика, которая была записана без петлички и с фоновым шумом, уже понял только наполовину. С диктофонной записью все печально.
Пример того, как работает Dictation (1 — качественная запись, 2 — посредственная)
Это платная десктопная Windows-программа для расшифровки речи, не требующая доступ к интернету. Работает как с микрофоном, так и с готовыми аудиозаписями — поддерживаются все популярные форматы (wav, mp3, wma). Правда, последнее возможно только на дорогих тарифах.
Важный момент — программа обучается на ваших документах, начинает лучше понимать лексику и стиль, расширяет базовый словарный запас. Алгоритм версии 2.0 дообучен на звуковых данных, записанных на расстоянии 1 м от микрофона — для улучшенного распознавания со встроенных устройств и диктофонов.
Базовый тариф стоит 1867 руб. в год, профессиональный — 15 500 руб. (дальше продлевать будет дешевле в разы). Разница между ними — в функциональности (например, транскрибация аудиозаписей и встраивание в Word есть только у Voco.Professional). Необязательно платить сразу — есть триал на 2 недели.
Так Voco расшифровал озвученную статью Дурова о Долине. Не особо впечатляет, хотя это результат сразу после установки программы, без обучения
Экзотика: субтитры YouTube
Наверняка вы замечали, что YouTube достаточно хорошо автоматически расшифровывает, что говорят герои в видеороликах. Можно использовать эту технологию и в личных целях. Метод экстремальный, но вполне доступный при отсутствии других возможностей для расшифровки.
Загружаете с ограниченным доступом любое видео, открываете его в «Творческой студии», переходите в раздел «Субтитры». Далее выбираете язык, подтверждаете и — готово. Субтитры можно скачать в формате .sbv, файл легко откроется в стандартном Блокноте.
Проблема в том, что выгружаются именно субтитры — с таймкодами и постоянным разрывом текста. Довольно сложно собрать нормальный материал, если видео длинное. И еще сложнее, если качество звука оставляет желать лучшего. А если у вас не видеозапись, а чистое аудио — придется еще и превращать его в видео в каком-нибудь редакторе для такого способа расшифровки.
Используя автозамены и макросы в редакторе, такой текст несложно вычистить от таймкодов. А вот собирать в связные абзацы придется вручную.
Так выглядит файл с субтитрами, который скачивается из «Творческой студии» YouTube
Заключение
Выше мной были перечислены программы для конверсии аудиозаписи голоса в текст, описан их общий функционал и характерные особенности. Большинство подобных продуктов обычно имеет платный характер, при этом ассортимент и качество русскоязычных программ качественно уступает англоязычным аналогам. Особое внимание при работе с подобными приложениями рекомендую уделить вашему микрофону и его настройкам – это имеет важное значение в процессе распознавания речи, ведь плохой микрофон может свести на нет даже самый качественный софт рассмотренного мной типа.
Странно но у меня в вин 10 нет Диспетчере звука Realtek. И не ставится. В чем причина не знаю. Приходится микрофон держать не более 1-2 см от рта,иначе не слышно или еле слышно. Как настроить чувствительность я ответа так и не получил от вас. Хотя шел сюда за этим. И причем тут хп или 7 ка ? Устаревшие опер системы.
а 10-ке смотрите просто в свойтсвах минкрофона усиление
Надеюсь вы мне поможете!
у меня проблема, что при записи видео звук пропадает, но если воспользовать записью только аудио от того же производителя, то звук идеальный.
Не могу понять в чём проблема, ведь настроил микрофон одинаково!
Микрофон : Logitech USB Microphone (больше информации про него нету)
Может быть сайт и хороший, но мне он не понравился тем, что когда я вставляю текст на английском и хочу узнать как читается его транскрипция на русском, я нажимаю на кнопку «показать транскрипцию» и нечего не происходит!
У меня проблемы со слухом(((.Готовлюсь к полной глухоте,но общаться с близкими хочется всегда)))Буду рад новинкам в данной теме сайта.
Какая, по вашему мнению, лучшая программа для автоматического транскрибировния компютерных мp3 файлов ? Программа, не требующая заниженной скорости речи на великом и могучем языке?
Какая лучшая бесплатная программа для тех же целей? Cпасибо за внимание.
Анатолий!
Если у Вас или ваших знакомых проблемы со слухом и человек не слышит, что ему говорят, а тем более по телефону, то…
То существует онлайн-программа по распознаванию речи и превращения её в текст. К этой программе (про другие проги мне такое неизвестно) можно даже подключить моб. телефон -тогда она будет слышать и писать то, что говорит вам собеседник по телефону. Телефон здесь используется в качестве микрофона. Заодно её можно использовать в качестве переводчика.
Алгоритм.
А. Зашла на этот сайт
speechlogger.appspot.com/ru
и опробовала программу по распознаванию речи (и переводу её в текст). Норм.
Б. Поскольку проблемы с телефоном, в т.ч. (не слышит, что говорят) — подключила моб. телефон с (Андроидом на борту) к ноутбуку. Мобильник,в этом случае, работает как микрофон.
Это операция из 3-х подопераций.
1. Скачать и установить НА МОБИЛЬНИК приложение Wo Mic c Google Play play.google.com/store/search?q=wo%20mic
2. Скачать и установить НА КОМПЬЮТЕР приложение Wo Mic softrare.ru/windows/wo-mic play.google.com/store/apps/details?id=com.wo.voice
3. Скачать и установить НА КОМП ДРАЙВЕР для Wo Mic programs.lv/sistema/drajvery/item/1270?page=download
Этот драйвер сымитирует присутствие на компе микрофона. (А в качестве микрофона будет наш мобильник). Или доп.микрофона (если уже имеется в системе микрофон, напр., комп-это ноутбук со встр.микрофоном).
В. После этого надо связать всю эту цепочку воедино:
1. клиент Wo Mic на мобильнике с клиентом Wo Mic на компьютере
2. Wo Mic на компе с программой по распознаванию речи Speechlogger (самая первая ссылка).
Пункт В.1. выполняется посредством связи мобильника и компа. Вариантов связи три:
а). через USB-провод (желательно родной к мобильнику или сводный- того же производителя. Для ПЕРЕДАЧИ ДАННЫХ любой провод может не сработать).
б). по блютузу — если Bluetooth имеется и на телефоне, и на компе.
в). по вайфаю — если телефон и комп подключены к одной сети WiFi. Для этого надо запустить Wo Mic на компе и на телефоне. В установках телефона выбрать способ связи (usb, bluetooth, wifi).
(На компе, соответственно, функции блютуза и/или вайфая активированы и аппараты друг друга «видят»). Если связь пойдет через usb-провод, то предварительно, в телефоне надо зайти в «режим разработчика» (активировать его-он обычно скрыт) и добравшись до пункта usb включить «отладка usb». (Иначе Wo mic-клиент на компе не сможет обнаружить этот сервер — примерно это он пишет на английском языке). Как активировать режим разработчика — можно посмотреть в интернете. Для версий Андроида 4 и выше это несложно. Телефон-Настройки-О телефоне-Номер сборки. По номеру сборки быстро нажимать несколько раз (пишут 7) .Тогда заветный ларчик откроется и вы окажитесь в меню «режим разработчика». )) Активируйте его (вкл.). После этого включите пункт «отладка usb». Вышли из режима разработчика, не выключая этот режим. После этого он постоянно будет отображаться в Настройках телефона. )) Если Вы НЕ будете использовать связь по usb-проводу — то лучше НЕ вытаскивать наверх режим разработчика. Недаром он спрятан — «защита от дурака».
Далее…
В Wo mic на телефоне: а). запускаете установку settings и выбрали подключение по usb (провод воткнут в телефон и комп), или bluetooth (комп и телефон видят друг друга — сопряжены), или wifi (должен быть прописан один и тот же адрес на телефоне и компе).
б). start (примерно)
После этого в Wo mic на компе: запускаете Connection-Connect… И Вомик докладывает, что связь установлена Connecteed. (Или что-то не срослось — тогда думаем, где прокол).
А теперь нам нужно объяснить компьютеру, что источником звука для него является «микрофон» Wo mic. Чтоб он его считал за самый главный. Для этого идем: Панель управления-Звук-Запись. На вкладке Запись видим Микрофон Wo Mic Device. Его надо выбрать как основной — нажать кнопку «По умолчанию». (Рядом с ним загорится зеленый флажок). Ок. Цепочка собрана. Нужно проверить, как работает. Позвоните себе на телефон с др. телефона и поговорите «с чужого» телефона. «Наш» телефон должен передавать звук на комп — рядом со значком «Микрофон Wo Mic Device Устройство по умолчанию» должен подмаргивать эквалайзерик -отображать, что звук идет.
Если всё фурычит — с чистой душой садимся в окно Speechlogger и болтаем туда всякую чушь. ))
Но не забываем, что нас подслушивают и подсматривают (что пишет программа) Билл Гейтс и Марк Цукерберг — поскольку мы в открытую общаемся в интернете. Так как Speechlogger онлайн-сервис. ))
P.S. Как сонастроить телефон и комп по WiFi — посмотрите видео в интернете.
P.P.S. Ссылки на скачивание WoMic и драйвера к нему (для компа) могут быть взяты с др.источников.
Всем привет. )))
И, конечно же, здоровья! Чтобы не нужно было таким сложным способом общаться между собой.