Набор текста голосом: проверенные программы и онлайн-сервисы
Развитие технологий распознавания голоса даёт пользователям новые возможности для взаимодействия с различными устройствами. Мы постепенно привыкаем к голосовым помощникам, но с помощью голоса можно не только узнавать погоду или включать музыку, но и набирать большие объёмы текста.
Голосовой ввод текста — это функция, основанная на технологии распознавании речи. Программа голосового ввода воспринимает произнесенные слова и преобразует их в письменный текст.
Не стоит путать голосовой ввод с голосовым управлением. Вторая технология упрощает пользователю выполнение каких-либо действий на устройстве — например, включает музыку или запускает приложения без помощи рук. Голосовой же ввод решает более узкую задачу — набор текста с помощью голоса.
Голосовой ввод применим в разных ситуациях:
- для перевода аудиофайлов в текстовый формат — например, для расшифровки интервью или записи лекции;
- для сохранения в файл большого объёма устного текста, ведь говорим мы намного быстрее, чем печатаем;
- для преодоления физических ограничений, при которых нет возможности набирать текст на клавиатуре.
Для использования голосового ввода нужен лишь микрофон. Владельцы ноутбуков могут использовать микрофон, встроенный в аппарат, а владельцы стационарных компьютеров — тот, что есть в веб-камерах, которые подключаются к ПК.
В принципе, для голосового ввода подойдёт любой микрофон, если говорить чётко и не очень быстро. Особой настройки оборудования тоже не требуется. Достаточно убедиться в том, что система воспринимает звук через микрофон.
Сетевые сервисы для преобразования речи в текст
В сети существует множество сервисов, позволяющих перевести речь в текст в режиме online. Практически все они предназначены для работы с браузером Google Chrome. Это связано с рядом причин, в частности данный браузер хорошо работает с « WebSpeech API ». Специальным программным интерфейсом, позволяющим распознавать речь с помощью функционала современного навигатора. Если вы попытайтесь запустить сервис распознавания на другом браузере (особенно не из семейства «Хромиум»), то вам порекомендуют установить Гугл Хром на ваш ПК.
Каждый из сервисов при попытке его активации запросит у вас доступ к микрофону. Без указанного доступа ресурс вас попросту не услышит.
Давайте разберём несколько популярных сервисов.
VoiceNote
- Сайт программы: voicenote.in
- Цена: бесплатно
- Платформа: сервис для работы в среде Microsoft Windows
VoiceNote — онлайн-сервис «2 в 1», предоставляющий пользователю возможность набора текста голосом онлайн в сочетании с мультифункциональным блокнотом для сохранения заметок. На платформе можно работать как онлайн, так и автономно, однако в этом случае распознавание речи будет невозможно — из числа функций будут доступны только редактирование словаря и создание текста в блокноте.
Для работы с сервисом пользователю понадобится устойчивое сетевое подключение и корректно настроенный микрофон. Интерфейс VoiceNote минималистичный без лишних наворотов, предусматривает 3 раздела: блокнот, редактирование персонального словаря и блок установки параметров.
Набранный в основном поле текст можно сохранить как заметку или загрузить в виде файла на жесткий диск. Словарь дает возможность добавлять варианты автозамены на русском и английском языке. Меню параметров предназначено для настройки размера шрифта и рабочего пространства, цвета текста и фона интерфейса. Дополнительно пользователь может добавить дату в заголовок созданной заметки или разместить ее в тексте, настроить микрофон и сменить тему оформления.
Онлайн-сервис распознавания речи поддерживает одно сочетание горячих клавиш для старта и остановки распознавания голоса — Ctrl + пробел. Пользователям также доступна установка расширения для браузера Google Chrome.
VoiceNote поддерживает более 20 языков, включая экзотические африкаанс, китайский, японский и хинди.
Главные недостатки сервиса — рекламные баннеры сверху и снизу рабочего пространства с тенденцией к повторному появлению после каждой перезагрузки страницы.
Speechpad
“Speechpad”, пожалуй, является одним из наиболее известных онлайн-софтов, которые преобразуют человеческую речь в текст. Вы можете пользоваться им как через браузер, так и скачав на устройство (что будет поудобнее). Он поддерживает множество языков, русский в том числе.
С помощью “Speechpad” вы можете преобразовывать в текст аудиофайлы, разговоры с видеороликов и, конечно же, собственную речь. Однако дизайн из начала нулевых придется по вкусу не каждому пользователю.
Программа Express Scribe (рекомендую)
Скачать программу Express Scribe (официальный сайт)
К сожалению, нет версии этой программы на русском языке, но она очень простая, интуитивно понятная и бесплатная.
Основные преимущества:
- Удобное поле для набора текста. Не нужно переключаться между проигрывателем и текстовым документом.
- Изменение скорости проигрывания звуковой дорожки, чтобы успевать писать под диктовку.
- Настраиваемые горячие клавиши, позволяющие воспроизводить, останавливать и перематывать запись.
- Адаптирован для работы с Word.
- Расстановка тайм-кодов.
Недостатки:
- На английском языке. Хотя это ни капли не мешает в работе.
В следующей статье я подробно разберу как в ней работать и какие горячие клавиши использовать.
Бот во ВКонтакте
Перевести полученное ВКонтакте голосовое сообщение в текст поможет специальный бот. Им можно воспользоваться непосредственно на главной странице сообщества. Также присутствует возможность добавления в чат – тогда бот будет автоматически переводить все голосовые сообщения, присылаемые пользователями.
Стоит заметить, что система работает только с записями ВК. Загруженные извне файлы не распознаются и не переводятся в текст.
6 сервисов для транскрибации
Конвертеры — специальные онлайн-сервисы для автоматической транскрибации. Большая часть из них работает при помощи нейросетей, преобразующих звук в текст. У платных программ качество перевода аудио и видео лучше, но это преимущество условно. Если расшифровываемая аудиозапись или видео изначально высокого качества, с преобразованием речи в текст справится даже бесплатный сервис.
Google Docs
Google Docs — тот же Word, только онлайн, бесплатный и не требующий установки. Транскрибатор через наушник или микрофон прослушивает аудио и видеозапись, а Google Docs расшифрует её.
Для запуска функции голосового ввода в приложении перейдите во вкладку «Инструменты» или нажмите CTRL+Shift+S:
В левой части экрана появится значок микрофона с выпадающим меню. До запуска видео или аудио выберите язык расшифровываемого текста. Запись активирована, если значок красного цвета:
Для расстановки знаков препинания в тексте помечайте эти места голосом: точка, запятая, абзац и т.д. Функция поддерживается на русском, испанском, английском, французском и немецком языках.
Преимущества:
- Бесплатный сервис, переводит на разные языки.
- Есть русская версия.
- Доступ к приложению могут иметь несколько человек одновременно.
- Приложение открывается с любого устройства, подключенного к интернету.
- Автоматически сохраняет расшифрованный материал.
- Есть возможность редактирования текста в том же документе.
- Для транскрибации аудио и видео нужны наушники, микрофон и тишина.
- Встроенный микрофон на ноутбуке подойдет, но качество расшифровки речи будет хуже.
- Результат расшифровки аудио и видео в текст непредсказуем: часто теряются слова при быстрой речи и воспроизведении бесед.
- Аудио, видео запись может обрываться.
- Нельзя переключаться между вкладками, приложение сразу выключается.
- Нельзя воспроизводить аудио и видео запись с компьютера.
- Медленная расшифровка речи.
Результат Google-транскрибации непредсказуем. Иногда приложение корректно расшифровывает аудио и видео, но чаще авторы переписывают текст из-за ошибок и несвязных фраз. Сервис расшифровки в Google Docs негативно реагирует на изменение тембра голоса на видео, слишком тихую или, наоборот, громкую речь.
Для успешной расшифровки текста четко проговаривайте фразы в микрофон.
Голосовой блокнот Speechpad
Голосовой блокнот Speechpad создан специально для расшифровки речи из аудио и видео в печатный текст. Приложение бесплатное, запускается в браузере Chrome с компьютера, смартфона и планшета.
Видео через микрофон транслируется в компьютер при нажатии кнопки «Включить звук». При активации «+Транскрибация» можно загрузить в сервис аудио или видео, а не воспроизводить речь отдельно. Speechpad поддерживает форматы: HTML 5 video, HTML 5 audio и медиа из Youtube.
Speechpad не расшифрует видео с тихим звуком, шумами и посторонними звуками. Хорошо работает при использовании профессионального внешнего микрофона.
При расшифровке каждые 20-30 секунд происходит буферизация видео и аудио. После перезагрузки ролик включается чуть раньше — на 1-2 секунды. Из-за этого текст повторяется и его нужно редактировать.
Преимущества:
- Бесплатное использование, есть русская версия.
- Для Android и iOS разработаны приложения.
- Есть расширение для браузера Chrome. После установки сервис переводит аудио и видео в любом окне.
- Пользователи могут сворачивать вкладку с блокнотом без боязни прервать расшифровку видео.
- Переводит видео на разные языки из форматов: HTML 5 и Youtube.
- Предусмотрена отдельная вкладка для генерации текста в виде субтитров.
- Работает только в Chrome.
- Часто зависает.
Для решения проблемы перейдите во вкладку «Поддержка» и сделайте интеграцию сервиса. Если не поможет — обращайтесь в техническую службу.
Результат расшифровки зависит от качества звуковой дорожки на видео, тембра голоса, особенностей дикции и шумов.
YouTube
Видеохостинг расшифровывает видеозапись в режиме онлайн и создает автоматические субтитры. YouTube — единственный видеосервис, в котором текст воспроизводится по желанию зрителя. При этом есть проблемы с передачей смысла:
- Слова на иностранном языке переделываются под установленный язык, но не переводятся.
- Заминки в речи сервис интерпретирует по-своему, часто угадывая слова.
- Быструю речь не понимает.
Расшифровка видео Ютуб запускается нажатием кнопки «Субтитры» в панели настроек:
Преимущества:
- Спикеры редактируют видео и настраивают отображение текста в одном месте.
- Бесплатный.
- Прост в использовании.
- Поддерживает разные языки, в том числе русский.
- Текст непонятен: много разрывов, непонятных слов.
- Подходит для воспроизведения только качественных роликов.
- Скопировать текст в отдельный файл нельзя.
DownSub
Теперь разберем, как транскрибировать текст из YouTube-ролика, чтобы его можно было редактировать. Скачать текстовую расшифровку и перевести ее на другой язык поможет сервис DownSub. Вставьте ссылку на ролик в отдельную строку и начните загрузку.
По окончании работы появятся варианты для скачивания текста — STR и TXT.
Vocalmatic
Vocalmatic — еще один сервис для автоматического распознавания речи с простым интерфейсом и возможностью редактирования текста. Сервис условно бесплатный, для запуска нужно зарегистрироваться через электронную почту, аккаунт Google или LinkedIn. Сервис бесплатно обрабатывает файлы длиной 30 минут в формате mp3. Vocalmatic англоязычный.
Чтобы попасть на страницу загрузки файлов жмите на New Transcription.
Интерфейс программы интуитивно понятен:
- Выбираете тип документа.
- Загружаете ролик в формате mov, mp4, webm, ogg.
- Настраиваете язык, на котором воспроизводится запись.
- Выбирайте формат выходного файла: по умолчанию или STR — субтитры.
- Жмите «Начать». Готовая расшифровка хранится в личном кабинете в течение пяти дней. Ссылка на файл приходит на электронную почту, указанную при регистрации.
Преимущества:
- Переводит готовые файлы.
- Простой интерфейс.
- Работает с аудио и видеофайлами в режиме: .mp3, .flac, .wav, .mp4, .mov, .ogg, .webm.
- Конвертирует аудио в текст при помощи искусственного интеллекта.
- Поддерживает автоматическую расшифровку на 100 языках.
Сервис анализирует аудиозапись секунда за секундой, определяет, какое слово было произнесено за секунду, и сохраняет каждое слово в расшифровке этой записи. После завершения процесса компьютер выдает набор распознанных слов, для редактирования которых есть встроенный редактор.
Express Scribe Transcription
Express Scribe — профессиональный сервис, популярный у тех, кто расшифровывает аудио и видеозаписи в текст. Программа условно бесплатная, обрабатывает файлы в wav, mp3, wma и dct форматах. Может воспроизводить файлы с переменной скоростью и совместима с большинством текстовых редакторов.
Программа запускается в фоновом режиме, пользователю не надо переключаться между вкладками при прослушивании записи и наборе текста. Автор сам настраивает скорость воспроизведения материала и регулирует качество звука. Текст набирается в отдельном окне программы, а затем копируется в любой редактор для последующей корректировки.
Express Scribe совместима с сервисами распознавания речи Speechpad, Google Docs и т.д. Может расшифровывать текст автоматически и вручную.
Преимущества:
- Есть возможность настройки скорости воспроизведения, качества звука, корректировки фонового шума и высоких частот.
- Интуитивно понятный интерфейс.
- Есть функция закладок для установки их в нужных местах аудиофайла.
- Можно набирать текст в окне плеера и включить мини-формат Scribe Mini и работать в Word.
- Управление горячими клавишами.
- Совместима с большинством программ для перевода.
- Не поддерживает русскую версию.
- В бесплатной версии нет возможности расшифровки видеофайлов.
Для извлечения звуковой дорожки используйте специальные плееры. Например, Freemake Video Converter.
- Нет автоматического сохранения. Если текст из плеера случайно удалится, восстановить его не получится.
- Не набирает текст автоматически сама.
Это единственное приложение из списка, в которой текст распознается вручную. Если качество записи плохое, есть помехи или тему обсуждают несколько человек одновременно с транскрибации могут возникать проблемы. В таком случае доверить перевод видео в текст только программе не получится. Транскрибатор должен убедиться, что правильно понял услышанное и верно донес материал. Функции замедления и корректировки звука в Express Scribe Transcription будет незаменима.
«RealSpeaker» — сверхточный распознаватель речи
Программа для трансформации голоса в текст «RealSpeaker» кроме стандартных для программ такого рода функций, позволяет задействовать возможности веб-камеры вашего ПК. Теперь программа не только считывает аудио составляющую звука, но и фиксирует движение уголков губ говорящего, тем самым более корректно распознавая выговариваемые им слова.
«RealSpeaker» считывает не только аудио, но и визуальную составляющую процесса речи
Приложение поддерживает более десяти языков (в том числе и русский), позволяет распознавать речь с учётом акцентов и диалектов, позволяет транскрибировать аудио и видео, даёт доступ к облаку и многое другое. Программа условно бесплатна, за платную версию придётся заплатить вполне реальные деньги.
Преобразование речи в текст в Windows
Инструмент конвертации устной речи в письменную есть в обычной программе Office 365. Для запуска требуется войти в учетную запись Microsoft и установить микрофон. Далее можно запустить функцию голосового ввода. Текст будет отображаться в программе Word. Интересно, что пользователям Windows 8 и 10 вообще не нужны никакие программы. В операционной системе есть встроенная функция «Распознавание речи».
Выбор конкретного программного продукта в любом случае остается за вами. Не рассчитывайте, что алгоритмы смогут нормально расшифровать зашумленную запись, даже если вы заплатили достаточно приличные деньги за софт. И, скорее всего, для расшифровки «сложной» записи придется нанимать опытных фрилансеров или корпеть над конвертацией самому. Но для «чистой» диктовки и рутинных текстов сервисы и программы речевой расшифровки подходят прекрасно.