Как преобразовать голос в текст

Программы для перевода аудио голоса в текст

В нашем современном, насыщенном событиями мире, скорость работы с информацией является одним из краеугольных камней достижения успеха. От того как насколько быстро мы получаем, создаём, перерабатываем информацию зависит наша рабочая производительность и продуктивность, а значит и наш непосредственный материальный достаток. Среди инструментов, способных повысить наши рабочие возможности, важное место занимают программы для перевода речи в текст, позволяющие существенно увеличить скорость набора нужных нам текстов. В данном материале я расскажу, какие существуют популярные программы для трансформации речи в текст, и каковы их особенности.

Большинство ныне существующих программ для перевода голоса в текст имеют платный характер, предъявляя ряд требований к микрофону (в случае, когда программа предназначена для компьютера). Крайне не рекомендуется работать с микрофоном, встроенным в веб-камеру, а также размещённым в корпусе стандартного ноутбука (качество распознавания речи с таких устройств находится на довольно низком уровне). Кроме того, довольно важно иметь тихую окружающую обстановку, без лишних шумов, способных напрямую повлиять на уровень распознавания вашей речи.

При этом большинство таких программ способны не только трансформировать речь в текст на экране компьютера, но и использовать голосовые команды для управления вашим компьютером (запуск программ и их закрытие, приём и отправление электронной почты, открытие и закрытие сайтов и так далее).

Картинка пиши голосом

Преобразование голоса в текст при помощи MSpeech

MSpeech — программа для распознавания речи с открытым исходным кодом, понимающая более 50 языков. В качестве модуля распознавания используется Google Voice Api (тот же самый, что и в мобильных устройствах под управлением Android). Т.е. приложение не работает без подключения к интернету.

В отличие от предыдущей программы, MSpeech не преобразовывает речь в режиме реального времени. Вместо этого она сначала осуществляет запись голоса пользователя, отправляет его на сервисы Google, где происходит преобразование, а затем вписывает полученный результат в текстовое поле любого активного окна.

Программа MSpeech очень проста в использовании:

  • Запускаем функцию записи голоса, используя горячие клавиши (по умолчанию — «Ctrl + Alt + F10») либо путем нажатия на кнопку «Начать запись» в основном окне приложения.

MSpeech

  • По завершению произношения речи просто выключаем запись. Программа автоматически вставит текст в открытый текстовый редактор или текстовое поле, на котором находится фокус.

Также MSpeech позволяет запускать и останавливать выполнение любых внешних программ, открывать файлы, выполнять команды командной строки Windows и преобразовывать текст в голос. Команды можно создавать самому в неограниченном количестве, используя соответствующую функцию в настройках приложения.

Программа MSpeech

Программы для голосового ввода

Если вы планируете пользоваться голосовым вводом постоянно, то самое удобное решение — установить одну из программ, которая предоставляет такую возможность.

Dictate для MS Office

В 2017 году разработчики Microsoft выпустили дополнение Dictate. Оно доступно для бесплатной установки на Windows 8.1/10 в пакетах MS Office 2013 и старше. После инсталляции Dictate в Word, PowerPoint и Outlook появляется дополнительный раздел, позволяющий включить микрофон и использовать распознавание речи для начитки текста.

Спустя некоторое время Microsoft прекратила поддержку дополнения, интегрировав функцию распознавания речи в Office 365 и Windows 10. Если вы используете эту версию пакета приложений, то можете без труда наговорить любой текст через микрофон.

Как это сделать:

  1. Откройте Word.
  2. Нажмите сочетание клавиш Win+H.
  3. Кликните по значку микрофона и диктуйте текст.

Распознавание работает только в том случае, если в «Параметрах» включена соответствующая функция:

Несмотря на заявленную поддержку русского языка, качество его распознавания оставляет желать лучшего. Программа правильно записывает простые фразы, но на сложных предложениях часто спотыкается. Поэтому не стоит даже надеяться на то, что вы будете говорить безостановочно — для получения приемлемого результата необходимо делать паузы и чётко проговаривать все окончания. Распознавание аудиофайлов здесь не поддерживается — для этого нужны другие программы.

Расширение Dictate больше нельзя скачать с официальной страницы Microsoft, но оно осталось на других сайтах. Однако загрузка из сторонних источников может быть опасной из-за вирусной угрозы. Если у вас нет подписки на Office 365, то рекомендуем использовать другие программы для голосового набора текста.

MSpeech

MSpeech — простая программа для обработки речи и превращения голосового потока в текст, способная распознавать более 50 языков, среди которых русский.

После установки и запуска она сворачивается в системный трей. Чтобы вызвать её оттуда, кликните правой кнопкой мышки по иконке программы и выберите опцию «Показать».

Для управления записью здесь используются две кнопки — «Начать» и «Остановить».

Самые важные функции программы скрыты в её настройках. Нажмите на одноимённую кнопку, чтобы перейти в этот раздел. Здесь вы можете:

  1. Включить автозапуск приложения вместе с системой.
  2. Выбрать основной и дополнительный языки распознавания.
  3. Задать собственные команды для запуска других программ. Например, по ключевому слову «интернет» будет открываться Mozilla Firefox.
  4. Назначить горячие клавиши для управления записью.
  5. Включить передачу текста в другие программы: редакторы, офисные приложения, браузеры и т.д.

Для работы MSpeech требуется подключение к Интернету, так как программа использует Google Voice API.

Speechpad

Speechpad — это сервис, который можно использовать в браузере или интегрировать с операционными системами Windows и Linux для добавления голосового ввода в другие программы — например, «Блокнот» или офисные приложения.

Если вы хотите пользоваться голосовым вводом в Google Chrome, в том числе набирать сообщения и заполнять другие формы, сделайте следующее:

  1. Установите в Chrome расширение Speechpad.
  2. После инсталляции кликните по значку дополнения на верхней панели, чтобы открыть его настройки.
  3. Выберите язык голосового ввода.
  4. Нажмите «Save» и перезапустите браузер.
  5. Откройте любой сайт с текстовой формой. Это может быть поисковая строка Яндекса или диалог в соцсети.
  6. Кликните по полю правой кнопкой и выберите опцию «Speechpad».

Если голосовой ввод поддерживается, то форма окрасится в розовый цвет. Также вам нужно дать разрешение на использование микрофона, после чего вы можете диктовать текст.

Чтобы расширить действие сервиса на другие приложения Windows, необходимо установить дополнительный модуль интеграции.

  1. Скачайте модуль и распакуйте архив.
  2. Запустите файл install_host.bat.
  3. Зарегистрируйтесь в голосовом блокноте.
  4. Авторизуйтесь в кабинете пользователя и нажимаем на кнопку «Включить тестовый период».
  5. Откройте сайт голосового блокнота.
  6. Отметьте пункт «Интеграция с OS».
  7. Нажмите «Включить запись».
  8. Запустите любое приложение с текстовым редактором (например, Word) и диктуйте текст.

Интеграция с системой — платная услуга. Проверить её работу можно без покупки лицензии, но для постоянного использования требуется подписка: месяц — 100 рублей, 3 месяца — 250 рублей, 1 год — 800 рублей.

Voco

Voco — платное Windows-приложение для распознавания речи и преобразования её в текстовый формат. Оно даже поддерживает расстановку знаков препинания с помощью специальных команд.

Для проверки орфографии эта программа использует встроенные словари. Кроме того, вы можете научить её новым выражениям, открыв доступ к вашим письмам и документам.

Для домашнего использования оптимально подходит Voco.Basic. Однако в ней нет распознавания аудиозаписей и тематических словарей. Эти возможности доступны только в старших версиях.

Как пользоваться

Кто-то может использовать рассматриваемое нами приложение в качестве расширения к своему браузеру, другие устанавливают программу на компьютер. Но и в том и в другом случаях такой софт отличается качеством работы и уже получил огромное количество положительных отзывов.

Для того чтобы установить софт в виде приложения для Windows, нужно поступить немного иначе. Вы переходите на сайт speechpad.ru программы и скачиваете ее оттуда., Также озвучивать текст можно и онлайн, для этого просто пролистайте страницу в самый низ. Вы можете протестировать качество работы SpeechPad и, если оно вас устроит, переходить к скачиванию.

Онлайн-сервисы

Это бесплатная разработка Google Chrome, которая, соответственно, работает только в этом браузере. Думаю, с этим проблем не будет, ведь это лучший браузер, и если вы до сих пор им не пользуетесь, то читайте статью про то, почему мы выбираем Chrome. Блокнот можно установить прямо в браузер или пользоваться возможностью набора текста голосом, перейдя на их сайт.

Аналогичен предыдущему сервису, также работает только в Google Chrome. Пользоваться им элементарно: выбираем нужный язык и приложение под диктовку само печатает.

Ещё один интернет-сервис быстрого голосового ввода текста. Понятный интерфейс и бесплатное использование. В арсенале этого сервиса русский, украинский, английский, немецкий, французский и итальянский языки.

Преимущества данного бесплатного сервиса в наличии голосовых подсказок, возможности просмотра вариантов распознавания. Также имеется удобный редактор, с помощью которого вы cможете скопировать полученный материал, распечатать его на принтере, осуществить перевод на иностранные языки или отправить по почте.

Чтобы воспользоваться набором, не прикасаясь к клавиатуре, вам нужно открыть вкладку “Инструменты”, а затем нажать на “Голосовой ввод…”

Разные команды для редактирования и форматирования пока доступны только на английском языке, но для русского языка поддерживаются пунктуационные команды:

  1. “точка”,
  2. “запятая”,
  3. “восклицательный знак”,
  4. “вопросительный знак”,
  5. “новая строка”,
  6. “новый абзац”.

Как показала практика, это очень удобно.

Программа Lossplay

Вот еще одна программа для профессиональной расшифровки аудиофайлов. Программа ЛоссПлей. Это плеер от «нашего» разработчика. Поэтому удобен для русскоязычного транскрибатора.

LossPlay1

mainpl2

Программа идеально подходит для новичка, который занимается расшифровкой аудио. В программе есть удобные быстрые клавиши.Этот плеер для транскрибации легко интегрируется с Word. Можно вставлять тайм-коды. Поддерживается огромное количество форматов аудиофайлов. Регулировка скорости воспроизведения. И многое-многое другое. Есть видеоуроки!

Выводы

Несмотря на то, что до сих пор не существует способа, который бы обеспечил стопроцентное распознавание голоса в текст, за последние годы прогресс всё же наметился. Как мы могли убедиться, этому активно способствует корпорация Google. Создав свой Web Speech API, Гугл, практически открыл дорогу всем желающим для создания программ и сервисов перевода речи в текст. Причём, все они потенциально бесплатны!

Если Гугл не забросит развитие словарей распознавания голоса (как это у него, увы, часто бывало с другими проектами), то уже в ближайшем будущем у нас будет шанс получить качественные и бесплатные инструменты голосового ввода. Думаю, что так оно и будет, поскольку даже наш Яндекс ведёт активную работу в данном направлении. А, если будет конкуренция, то будет и развитие.

На сегодняшний же день мы уже можем использовать некоторые наработки, которые дают нам возможность распознавать речь с точностью от 60 до 90% (зависит от Вашей дикции и качества микрофона). В принципе, такой точности достаточно для надиктовки чернового варианта любого текста с последующей его правкой. Поэтому, если Вы до сих пор медленно печатаете, попробуйте голосовой ввод. Вполне возможно, что Вы будете очень довольны 😉

P.S. Разрешается свободно копировать и цитировать данную статью при условии указания открытой активной ссылки на источник и сохранения авторства Руслана Тертышного.

Зачем может понадобиться конвертировать аудио в текст

  1. Расшифровать запись длинного интервью или подкаста.
  2. Сделать транскрибацию озвучки видео.
  3. Надиктовать себе идей, пока есть вдохновение.
  4. Понять, о чем говорят в голосовом сообщении, когда нет возможности послушать.
  5. Общаться с людьми с особенностями слуха.

Для помощи в расшифровке аудио в текст есть сервисы. Мы составили список из программ и ботов в социальных сетях, их существует больше, но мы выбрали самые удачные. Некоторые работают с русскими, некоторые с иностранными текстами. Всеми сервисами из подборки можно пользоваться бесплатно, но в некоторых нужно будет зарегистрироваться.

Заключение

В данной статье мы рассказали, как активировать речевой ввод текста в программе Microsoft Word. Если у вас что-то не получилось, возможно, ваша операционная система не соответствует требованиям или же вы неправильно подключили микрофон.

Обратите внимание на то, что качество записи текста зависит от того, насколько четко и внятно вы будете произносить слова.

Оцените статью
Fobosworld.ru
Добавить комментарий

Adblock
detector