Перевод голоса в текст онлайн и с программами
Как известно, время – это деньги. Особенно это касается написания различных текстов, когда наши руки попросту не поспевают за быстрым течением нашей мысли. Написание текста при этом превращается в одно сплошное мучение, при котором мы постоянно одёргиваем себя и комкаем эвристический процесс. В таком случае нам на помощь приходит различные сервисы и программы, позволяющие быстро превратить речь в текст на экране нашего телефона или ПК. Ниже мы разберём, с помощью каких сетевых сервисов производится трансформация голоса в текст, а также какие стационарные программы способны также оказать нам посильную помощь.
Как известно, попытки создать программы для распознавания голоса берут своё начало ещё в середине 20 века. Поначалу распознавание было довольно слабым, но использование более совершенных методов и технологий (скрытые марковские модели, нейронные сети etc.) подняло распознавание голоса на довольно высокий уровень.
Ныне мы можем встретить достаточное количество сетевых сервисов и программ, выполняющих перевод речи в текст. Практически все они хорошо распознают человеческий голос на многих языках (включая русский), и способны переводить его в текстовый формат. При этом 100% понимания речи достичь пока не удаётся, Это связано с шумами при звучании, невнятной дикцией или акцентом говорящего, помехами в работе микрофона, эмоциональным состоянием человека и другими схожими факторами.
При этом использование таких сервисов и программ позволяет существенно сэкономить время при наборе различных текстов. Вы можете быстро надиктовать нужный фрагмент после чего сохранить его в удобном текстовом формате на ваш компьютер или телефон.
Давайте разберёмся, какие сервисы и программы помогут быстро перевести речь в текст.
Dictation.io
Сервис онлайн распознавания речи через микрофон. Посредством голоса можно расставлять параграфы, знаки пунктуации и даже смайлики. Dictation пригодится для написания электронных писем или заполнения документов в браузере.
- Перейти на страницу транскрибации.
- В правой части экрана нажать на три горизонтальные полоски, чтобы выбрать язык ввода. Поддерживается большое количество языковых направлений.
Сайт не предоставляет отдельных программ для перевода аудио в текст, поэтому работа осуществляется только на его страницах.
Программы для голосового ввода
Если вы планируете пользоваться голосовым вводом постоянно, то самое удобное решение — установить одну из программ, которая предоставляет такую возможность.
Dictate для MS Office
В 2017 году разработчики Microsoft выпустили дополнение Dictate. Оно доступно для бесплатной установки на Windows 8.1/10 в пакетах MS Office 2013 и старше. После инсталляции Dictate в Word, PowerPoint и Outlook появляется дополнительный раздел, позволяющий включить микрофон и использовать распознавание речи для начитки текста.
Спустя некоторое время Microsoft прекратила поддержку дополнения, интегрировав функцию распознавания речи в Office 365 и Windows 10. Если вы используете эту версию пакета приложений, то можете без труда наговорить любой текст через микрофон.
Как это сделать:
- Откройте Word.
- Нажмите сочетание клавиш Win+H.
- Кликните по значку микрофона и диктуйте текст.
Распознавание работает только в том случае, если в «Параметрах» включена соответствующая функция:
Несмотря на заявленную поддержку русского языка, качество его распознавания оставляет желать лучшего. Программа правильно записывает простые фразы, но на сложных предложениях часто спотыкается. Поэтому не стоит даже надеяться на то, что вы будете говорить безостановочно — для получения приемлемого результата необходимо делать паузы и чётко проговаривать все окончания. Распознавание аудиофайлов здесь не поддерживается — для этого нужны другие программы.
Расширение Dictate больше нельзя скачать с официальной страницы Microsoft, но оно осталось на других сайтах. Однако загрузка из сторонних источников может быть опасной из-за вирусной угрозы. Если у вас нет подписки на Office 365, то рекомендуем использовать другие программы для голосового набора текста.
MSpeech
MSpeech — простая программа для обработки речи и превращения голосового потока в текст, способная распознавать более 50 языков, среди которых русский.
После установки и запуска она сворачивается в системный трей. Чтобы вызвать её оттуда, кликните правой кнопкой мышки по иконке программы и выберите опцию «Показать».
Для управления записью здесь используются две кнопки — «Начать» и «Остановить».
Самые важные функции программы скрыты в её настройках. Нажмите на одноимённую кнопку, чтобы перейти в этот раздел. Здесь вы можете:
- Включить автозапуск приложения вместе с системой.
- Выбрать основной и дополнительный языки распознавания.
- Задать собственные команды для запуска других программ. Например, по ключевому слову «интернет» будет открываться Mozilla Firefox.
- Назначить горячие клавиши для управления записью.
- Включить передачу текста в другие программы: редакторы, офисные приложения, браузеры и т.д.
Для работы MSpeech требуется подключение к Интернету, так как программа использует Google Voice API.
Speechpad
Speechpad — это сервис, который можно использовать в браузере или интегрировать с операционными системами Windows и Linux для добавления голосового ввода в другие программы — например, «Блокнот» или офисные приложения.
Если вы хотите пользоваться голосовым вводом в Google Chrome, в том числе набирать сообщения и заполнять другие формы, сделайте следующее:
- Установите в Chrome расширение Speechpad.
- После инсталляции кликните по значку дополнения на верхней панели, чтобы открыть его настройки.
- Выберите язык голосового ввода.
- Нажмите «Save» и перезапустите браузер.
- Откройте любой сайт с текстовой формой. Это может быть поисковая строка Яндекса или диалог в соцсети.
- Кликните по полю правой кнопкой и выберите опцию «Speechpad».
Если голосовой ввод поддерживается, то форма окрасится в розовый цвет. Также вам нужно дать разрешение на использование микрофона, после чего вы можете диктовать текст.
Чтобы расширить действие сервиса на другие приложения Windows, необходимо установить дополнительный модуль интеграции.
Интеграция с системой — платная услуга. Проверить её работу можно без покупки лицензии, но для постоянного использования требуется подписка: месяц — 100 рублей, 3 месяца — 250 рублей, 1 год — 800 рублей.
Voco — платное Windows-приложение для распознавания речи и преобразования её в текстовый формат. Оно даже поддерживает расстановку знаков препинания с помощью специальных команд.
Для проверки орфографии эта программа использует встроенные словари. Кроме того, вы можете научить её новым выражениям, открыв доступ к вашим письмам и документам.
- Basic — 1718 рублей. Бесплатные обновления в течение 1 года. Продление подписки на апдейты — 559 рублей ежегодно.
- Professional — 14 136 рублей. Продление подписки на обновления — 4937 рублей ежегодно.
- Enterprise — от 50 749 рублей. Продление подписки на обновления — 17 786 рублей ежегодно.
Для домашнего использования оптимально подходит Voco.Basic. Однако в ней нет распознавания аудиозаписей и тематических словарей. Эти возможности доступны только в старших версиях.
Приложения для мобильных систем
Для смартфонов разработано достаточно много систем распознавания голоса. Это связано с тем, что набирать текст вручную на мобильном сложно. Я иногда использую приложения для распознавания на своем планшете.
Назову три самых популярных системы для конвертации устной речи в текст.
1. Приложение Speechnotes
Можно установить на Android. Шустро преобразует устную речь в письменную и ничем особым не выделяется среди аналогов. Разве что стоит отметить достаточно удобный интерфейс. Из минусов – работает только при наличии интернета.
2. Приложение ListNote
ListNote также создан для Android. Есть поддержка русского языка, работает программа совершенно стандартно. Запускаем приложение, начинаем говорить – получаем текст. Большой плюс – может функционировать в режиме офлайн.
3. Приложение Dragon Dictation
Для порядка приведу программу для iOS, хотя я сама использую только Android-системы. Работа в ней вполне стандартна. Установите ее на свой смартфон – и пользуйтесь на здоровье. Текст, получивший в результате конвертации, можно отправить в социальные сети, например, в Facebook или Twitter. Для работы программы нужен интернет.
SpeechTexter
- Сайт программы: speechtexter.com
- Цена: бесплатно
- Платформа: онлайн-сервис для работы в среде Microsoft Windows, мобильное приложение для Android
SpeechTexter позволяет бесплатно преобразовывать аудио с микрофонного входа в текст. Сервис поддерживает диктовку текста онлайн на 60 языках, включая русский.
Платформа дает возможность составления маркированных и нумерованных списков, сохранения результата в файлы *. doc и *. txt, печати напрямую из рабочего пространства сервиса. В настройках SpeechTexter присутствуют инструменты форматирования текста, включая опции изменения размера и типа шрифта.
Пользователь может применить для оформления сайта ночную тему. В правой части сервиса находится блок с командами для добавления абзаца и знаков препинания. Используя вкладку Custom, пользователь может создавать свои команды.
Среди недостатков сайта стоит отметить небольшой рекламный блок слева от рабочего пространства.
Подборка сервисов для расшифровки аудио в текст
Использовать голосовой набор не всегда удобно, если это не запросы в поисковики. В шумной обстановке не получается прослушать запись голосового сообщения, некоторые люди в принципе лишены такой возможности. Если надиктованная информация нужна в печатном виде, войсы приходится переслушивать и перепечатывать, это тратит время и силы. Расшифровать интервью и аудиодорожку к видео тоже хорошо бы не собственными руками.
Зачем может понадобиться конвертировать аудио в текст
- Расшифровать запись длинного интервью или подкаста.
- Сделать транскрибацию озвучки видео.
- Надиктовать себе идей, пока есть вдохновение.
- Понять, о чем говорят в голосовом сообщении, когда нет возможности послушать.
- Общаться с людьми с особенностями слуха.
Для помощи в расшифровке аудио в текст есть сервисы. Мы составили список из программ и ботов в социальных сетях, их существует больше, но мы выбрали самые удачные. Некоторые работают с русскими, некоторые с иностранными текстами. Всеми сервисами из подборки можно пользоваться бесплатно, но в некоторых нужно будет зарегистрироваться.
Сервисы для перевода речи в текст
Блокнот для речевого ввода
Возможности: перевод диктуемых слов в текст, транскрибирование речи из аудио и видео с Ютуба.
Сервис автоматически расшифровывает произносимые слова по ходу надиктовки, причем умеет распознавать знаки препинания, если отметить пункт «Заменять слова пунктуации». Мы надиктовали ему «Привет восклицательный знак мы тестируем запятая как справляется сервис с расшифровкой текста точка» и так далее, самые часто употребляемые знаки он распознал, но не справился с многоточием, тире, скобками и кавычками.
Тест сервиса на знаки препинания
Транскрибирование текстов из загруженных аудиозаписей и из видео с Ютуба происходит в реальном времени при воспроизведении. Загружаем файл в сервис или указываем ID видео (символы после https://www.youtube.com/watch?v=), нажимаем «Включить запись».
Сервис транскрибирует речь ведущего
Бесплатно сервис работает с транскрибированием онлайн без ограничений, а также с распознаванием голоса на аудио и видео не дольше 15 минут.
Сервис не идеальный, но работает бесплатно, прост в управлении и не требует регистрации. Результат расшифровки может быть довольно чистым — всё зависит от дикции и скорости речи. Лишний повод потренироваться, если диктуете для себя, но нужно привыкнуть называть знаки препинания, если не хочется расставлять их потом.
Инструмент полезен, когда нужно надиктовать себе материал для текста или в заметку, расшифровать подкаст или интервью. Его можно включить фоном в процессе интервью, чтобы сервис расшифровывал речь в реальном времени.
Расширение «Голосовой ввод текста» для Google Chrome
Возможности: диктовка текста в соцсетях, строке поиска и на сайтах. Диктовка в приложениях Windows,Linux и Mac.
От сервиса «Голосовой блокнот» есть браузерное расширение для переписки в соцсетях и речевого ввода текста на сайтах, а еще дополнительный модуль для использования в приложениях Windows.
Расширение для соцсетей и форумов
Расширение умеет переводить голос в текст: можно диктовать поисковые запросы, сообщения в социальных сетях и на форумах.
Попробуем надиктовать сообщение в ВКонтакте. Открываем диалог, кликаем правой кнопкой мыши и выбираем расширение.
Выбор расширения по клику правой кнопкой
Ввод подсвечивается красным, в браузере появляется окно разрешения доступа к микрофону. Разрешаем доступ, диктуем сообщение, называя знаки препинания: « Настя запятая привет восклицательный знак как твои дела вопросительный знак» , готовый текст отображается в поле ввода.
Готовый текст сообщения
Сложно привыкнуть диктовать знаки препинания, на их озвучивание уходит много времени, но зато не нужно расставлять запятые вручную.
Результат расшифровки зависит от дикции говорящего, но в целом расширение для ввода хорошо справляется.
Расшифровка в любых приложениях Windows, Linux и Mac
Дополнительный бесплатный модуль для интеграции открывает тестовый период режима, который позволяет вводить текст напрямую в любые браузеры и приложения Windows: Word, Excel, Google Docs и другие — в любые места, где используется клавиатура. Для этого нужно зарегистрироваться в Голосовом блокноте и установить модуль.
Как установить модуль интеграции Голосового блокнота:
Программа Express Scribe (рекомендую)
Скачать программу Express Scribe (официальный сайт)
К сожалению, нет версии этой программы на русском языке, но она очень простая, интуитивно понятная и бесплатная.
Основные преимущества:
- Удобное поле для набора текста. Не нужно переключаться между проигрывателем и текстовым документом.
- Изменение скорости проигрывания звуковой дорожки, чтобы успевать писать под диктовку.
- Настраиваемые горячие клавиши, позволяющие воспроизводить, останавливать и перематывать запись.
- Адаптирован для работы с Word.
- Расстановка тайм-кодов.
Недостатки:
- На английском языке. Хотя это ни капли не мешает в работе.
В следующей статье я подробно разберу как в ней работать и какие горячие клавиши использовать.
Системы распознавания речи и транскрибация
Проблема создания системы распознавания речи получила развитие в 1952 году, когда была продемонстрирована первая попытка в истории человечества распознать голосовую команду.
Система Audrey американской компании «Bell Laboratories» могла распознать только цифры, произнесенные мужским голосом с определенным интервалом, но это стало настоящим прорывом.
С тех пор утекло много воды, лучшие умы бились над задачей научить компьютер понимать речь. Впереди планеты всей в этом вопросе оказались Google с функцией распознавания речи в браузере Chrome и Apple со своей программой Siri – оба события пришлись на 2011 год.
Сегодня выбор программ, автоматически преобразующих устную речь в письменный текст, довольно внушительный и для компьютеров, и для смартфонов, они постоянно совершенствуются, но все же для полноценной транскрибации не подходят.
Проблема таких программ в их требованиях к качеству звука. К сожалению, четкая речь без мусора и отсутствие посторонних шумов – редкое явление в работе транскрибатора. А несколько спикеров превращают итоговый текст в малопонятную кашу, на редактуру может уйти слишком много времени.
Google Keyboard (Android)
Gboard – альтернативная клавиатурная оболочка для Андроид, и одна из ее функций – голосовой ввод текста. Клавиатура с голосовым вводом – это удобно: во-первых, вам не нужно отдельное приложение для перевода речи текст. Во-вторых, клавиатура всегда под рукой и она действительно во многом более продуманная, чем штатная Андроид-клавиатура.
Для того, чтобы воспользоваться голосовым вводом, сделайте следующее:
- Скачайте клавиатуру Gboard на телефон.
- Переключите стандартную клавиатуру на Gboard в настройках Андроид.
- Откройте любой текстовый редактор или Заметки.
- При появлении клавиатуры нажмите на значок микрофона и продиктуйте текст.
К слову, в Google Keyboard используется стандартный движок распознавания, встроенный в ОС Андроид. В настройках голосового ввода доступны для скачивания языковые пакеты для распознавания речи офлайн. Откройте вкладку “Все” и скачайте необходимые языки.