Программа для распознавания голоса в текст для компьютера

Перевод голоса в текст — 7 способов

При выполнении работ с мультимедиа файлами, многим пользователям может понадобится перевод аудио в текст, то есть перевод речи в текст, расшифровка сказанного в виде текста. Подобная возможность часто востребована, в случаях, когда пользователям необходимо выполнить перевод голоса в текст.

У некоторых пользователей не всегда имеется возможность для прослушивания аудио файлов или просмотра видео файлов. Часто, гораздо удобнее и быстрее прочитать голосовое сообщение или речевое сопровождение в виде текста, в печатном виде.

Поэтому необходим перевод аудио, видео в текст, для дальнейшего использования этого материала, например, в статье или еще где-либо. Эта работа выполняется следующим образом: происходит распознавание речи и перевод сказанного в текст с помощью программы или на онлайн сервисе вручную или в автоматическом режиме.

Speechpad

Сайт программы: speechpad.ru
Цена: бесплатно
Платформа: веб, Android и iOS, Windows, Linux и MacOS

SpeechPad — кроссплатформенное программное обеспечение с версиями для ПК и мобильных. Главное предназначение сервиса — преобразование аудиосообщений в текст, активация распознавания голоса в сторонних цифровых продуктах. Разработчики именуют свой продукт «голосовым блокнотом».

Набор опций сервиса зависит от среды использования. Редакция ПО для мобильных устройств выполняет функцию стандартного блокнота, официальный портал speechpad.ru вместе с надстройкой для Google Chrome позволяют быстро конвертировать голосовые сообщения в текстовую форму.

Версия SpeechPad, установленная под Microsoft Windows, Linux или на устройствах под управлением MacOS, активирует функцию голосового ввода напрямую из оболочки операционной системы в любом приложении, например, Word или Opera.

На портале представлены разделы, главные из которых — голосовой блокнот, озвучка субтитров, проверка произношения на иностранных языках и извлечение субтитров из аудиозаписей. На сервисе можно работать с пятнадцатью языками, выполнять транскрибацию аудиотекстов из видеороликов на Youtube, форматов аудио и видео html5.

При взаимодействии со SpeechPad на официальном сайте пользователь может настроить ряд опций, например, локацию для сохранения текста (буфер обмена или файл), качество распознавания текста или скорректировать управление заглавными буквами при работе с Google.

Зарегистрированным пользователям доступны дополнительные функции: настройка интерфейса блокнота для речевого ввода, создание списков обработанных текстов, и многое другое.

Основной недостаток сервиса — интегрируемый в среду операционной системы модуль для прямого голосового ввода платный, стоимость подписки варьируется от 100 до 800 рублей в зависимости от срока (на месяц или год). Дополнительный минус — поддержка исключительно браузера Google Chrome, в других веб-обозревателях сервис может работать некорректно.

Google Docs (Google Документы)

Софт от Google под названием “Google Docs” изначально был создан в качестве конкурента для “Microsoft Word”, который до сих пор установлен почти у каждого пользователя компьютера (и у вас, думаю, тоже). В целом, софт от Гугл хорошо справляется со своей задачей и предоставляет своим пользователям огромный спектр возможностей. В том числе — голосовой ввод текста.

Чтобы им пользоваться, вам не надо скачивать никакие расширения (как в “ворде”). Просто выполните следующие действия:

Зайдите в “Инструменты”;
Выберите “Голосовой ввод”;
Начните надиктовывать текст или поднесите аудиозапись к микрофону.

Конечно, это очень удобно и позволит сэкономить ваши деньги. Но, профессиональную вычитку придется делать в любом случае. Почему?

Дело в том, что система еще не идеальна (как и у остальных сервисов), поэтому не все слова распознаются как надо. Текст получается “корявым” и если вы такой сразу же выложите, то читатели вас точно не похвалят.

Зато, работая в “Google Docs”, вы запросто можете делиться документом: его не надо скачивать, отправлять или делать все то, что требует “Word” — просто настройте разрешение на доступ и отправьте ссылку нужному человеку.

Веб-сервисы и приложения для голосового ввода

Для использования голосового ввода от случая к случаю можно обойтись без установки на компьютер специальных программ. Скорее всего, вам будет достаточно возможностей веб-сервисов и расширений для браузера.

Google Docs

Простой инструмент голосового ввода есть в Google Docs — сервисе для работы с текстовыми документами. Для его использования достаточно иметь аккаунт почты Gmail.

Как пользоваться голосовым вводом в Google Docs:

На экране появится текстовый редактор Google. Чтобы включить голосовой ввод, раскройте меню «Инструменты» и выберите соответствующую опцию. Слева появится виджет с микрофоном. Выберите в нём язык, на котором вы будете говорить, а затем нажмите на иконку микрофона, чтобы включить распознавание. Значок должен стать красным. Если браузер запросит разрешение на использование микрофона, дайте его.

Запуск голосового ввода доступен также с помощью сочетания клавиш Ctrl+Shift+S. Функция запускается с языком, установленным по умолчанию.

нажмите кнопку и говорите

После настройки начинайте говорить — Google Docs будет распознавать речь и превращать её в текст. Знаки препинания и новую строку проговаривайте словами, чётко произносите окончания слов — в противном случае исправлять текст придётся очень долго.

Speechpad

Speechpad — бесплатный сервис, который работает только в браузере Chrome. Выше мы рассказали, как настроить его интеграцию с Windows. Однако для набора небольшого фрагмента текста в этом нет необходимости — с задачей отлично справится веб-интерфейс голосового блокнота.

Откройте сайт Speechpad.ru.
Пролистните главную страницу до окна редактора.
Выберите язык ввода.
Нажмите на кнопку «Включить запись» и разрешите использование микрофона.
Диктуйте текст.

ввод текста в Speechpad

Возле кнопки «Включить запись» вы увидите поле предварительного показа. В нём отображается то, что будет добавлено в документ.

Расставлять знаки препинания и переходить на новую строку можно голосом или кнопками, которые находятся между полем предварительного просмотра и редактором. При наведении на каждую кнопку появляется текст голосовой команды, к которой она применяется — например, «вопросительный знак» или «открыть скобку».

Итоговый документ доступен для скачивания в формате TXT.

VoiceNote

VoiceNote — ещё один сервис для преобразования голоса в текст, который работает только в Google Chrome. При попытке запустить его в другом браузере появляется сообщение об ошибке.

Для голосового ввода через VoiceNote можно использовать Live Demo или отдельное приложение для Chrome.

Как пользоваться VoiceNote:

Откройте редактор.
Нажмите на значок в виде земного шара и выберите язык ввода.
Кликните по иконке микрофона.
Разрешите использование записывающего устройства.
Диктуйте текст.

VoiceNote

Правила ввода здесь стандартные: знаки препинания можно проговаривать словами, а также голосом отправлять текст на новую строчку.

Полученный документ доступен для сохранения в формате TXT.

TalkTyper

TalkTyper — онлайн-редактор для голосового ввода. Главное его достоинство — поддержка 37 языков. Однако TalkTyper, как и предыдущие сервисы, работает только в Google Chrome.

TalkTyper

Принцип ввода текста в этом редакторе не отличается от других: вы указываете язык, нажимаете на значок микрофона и разрешаете его использование. Знаки препинания и новая строка проговариваются словами.

Результат обработки текста в TalkTyper можно сохранить в виде документа в формате TXT, скопировать в буфер обмена, распечатать, отправить по почте, твитнуть и перевести на другой язык.

Voice Notepad

Voice Notepad — ещё один сервис для преобразования голоса в текст, работающий только в Chrome. Он поддерживает больше 120 языков ввода. В остальном функциональность у него такая же, как у сервисов, перечисленных выше: расстановка знаков препинания голосом, сохранение документа в формате TXT, копирование в буфер обмена, отправка по почте или на печать и т.д.

Voice Notepad

Особенность онлайн-сервисов заключается в том, что все они работают только в Google Chrome. Это связано с тем, что в их основе лежит лицензионная гугловская технология распознавания речи. Другие браузеры её не поддерживают или поддерживают с ограничениями. Например, Speechpad можно запускать в Яндекс.Браузере, однако в чужеродной среде он часто работает с ошибками. Так что если вы не пользуетесь Google Chrome, проще всего установить одну из программ для голосового ввода на компьютер и забыть про неудобства.

Speechlogger.appspot.com – перевод речи в текст онлайн

Сервис speechlogger.appspot.com – ещё один популярный сетевой ресурс, позволяющий трансформировать речь в текст. Работает он по тому же самому алгоритму, что и описанный нами выше speechpad.ru. Переходите на ресурс, жмёте на кнопку с изображением микрофона, разрешаете сервису доступ к микрофону, диктуете текст.

Перевод текста speechlogger.appspot

6 сервисов для транскрибации

Конвертеры — специальные онлайн-сервисы для автоматической транскрибации. Большая часть из них работает при помощи нейросетей, преобразующих звук в текст. У платных программ качество перевода аудио и видео лучше, но это преимущество условно. Если расшифровываемая аудиозапись или видео изначально высокого качества, с преобразованием речи в текст справится даже бесплатный сервис.

Google Docs

Google Docs — тот же Word, только онлайн, бесплатный и не требующий установки. Транскрибатор через наушник или микрофон прослушивает аудио и видеозапись, а Google Docs расшифрует её.

Для запуска функции голосового ввода в приложении перейдите во вкладку «Инструменты» или нажмите CTRL+Shift+S:

Транскрибирование аудио или видео в текстовую запись c помощью Google Docs

В левой части экрана появится значок микрофона с выпадающим меню. До запуска видео или аудио выберите язык расшифровываемого текста. Запись активирована, если значок красного цвета:

Активная кнопка транскрибации в Google Docs

Для расстановки знаков препинания в тексте помечайте эти места голосом: точка, запятая, абзац и т.д. Функция поддерживается на русском, испанском, английском, французском и немецком языках.

Преимущества:

Бесплатный сервис, переводит на разные языки.
Есть русская версия.
Доступ к приложению могут иметь несколько человек одновременно.
Приложение открывается с любого устройства, подключенного к интернету.
Автоматически сохраняет расшифрованный материал.
Есть возможность редактирования текста в том же документе.
Для транскрибации аудио и видео нужны наушники, микрофон и тишина.
Встроенный микрофон на ноутбуке подойдет, но качество расшифровки речи будет хуже.

Результат расшифровки аудио и видео в текст непредсказуем: часто теряются слова при быстрой речи и воспроизведении бесед.
Аудио, видео запись может обрываться.
Нельзя переключаться между вкладками, приложение сразу выключается.
Нельзя воспроизводить аудио и видео запись с компьютера.
Медленная расшифровка речи.

Результат Google-транскрибации непредсказуем. Иногда приложение корректно расшифровывает аудио и видео, но чаще авторы переписывают текст из-за ошибок и несвязных фраз. Сервис расшифровки в Google Docs негативно реагирует на изменение тембра голоса на видео, слишком тихую или, наоборот, громкую речь.

Для успешной расшифровки текста четко проговаривайте фразы в микрофон.

Голосовой блокнот Speechpad

Голосовой блокнот Speechpad создан специально для расшифровки речи из аудио и видео в печатный текст. Приложение бесплатное, запускается в браузере Chrome с компьютера, смартфона и планшета.

Видео через микрофон транслируется в компьютер при нажатии кнопки «Включить звук». При активации «+Транскрибация» можно загрузить в сервис аудио или видео, а не воспроизводить речь отдельно. Speechpad поддерживает форматы: HTML 5 video, HTML 5 audio и медиа из Youtube.

Сервис расшифровки речи в текст в голосовом блокноте Speechpad

Speechpad не расшифрует видео с тихим звуком, шумами и посторонними звуками. Хорошо работает при использовании профессионального внешнего микрофона.

При расшифровке каждые 20-30 секунд происходит буферизация видео и аудио. После перезагрузки ролик включается чуть раньше — на 1-2 секунды. Из-за этого текст повторяется и его нужно редактировать.

Преимущества:

Бесплатное использование, есть русская версия.
Для Android и iOS разработаны приложения.
Есть расширение для браузера Chrome. После установки сервис переводит аудио и видео в любом окне.
Пользователи могут сворачивать вкладку с блокнотом без боязни прервать расшифровку видео.
Переводит видео на разные языки из форматов: HTML 5 и Youtube.
Предусмотрена отдельная вкладка для генерации текста в виде субтитров.

Работает только в Chrome.
Часто зависает.

Для решения проблемы перейдите во вкладку «Поддержка» и сделайте интеграцию сервиса. Если не поможет — обращайтесь в техническую службу.

Результат расшифровки зависит от качества звуковой дорожки на видео, тембра голоса, особенностей дикции и шумов.

YouTube

Видеохостинг расшифровывает видеозапись в режиме онлайн и создает автоматические субтитры. YouTube — единственный видеосервис, в котором текст воспроизводится по желанию зрителя. При этом есть проблемы с передачей смысла:

Слова на иностранном языке переделываются под установленный язык, но не переводятся.
Заминки в речи сервис интерпретирует по-своему, часто угадывая слова.
Быструю речь не понимает.

Расшифровка видео Ютуб запускается нажатием кнопки «Субтитры» в панели настроек:

Расшифровка видео в Ютуб

Преимущества:

Спикеры редактируют видео и настраивают отображение текста в одном месте.
Бесплатный.
Прост в использовании.
Поддерживает разные языки, в том числе русский.

Текст непонятен: много разрывов, непонятных слов.
Подходит для воспроизведения только качественных роликов.
Скопировать текст в отдельный файл нельзя.

DownSub

Теперь разберем, как транскрибировать текст из YouTube-ролика, чтобы его можно было редактировать. Скачать текстовую расшифровку и перевести ее на другой язык поможет сервис DownSub. Вставьте ссылку на ролик в отдельную строку и начните загрузку.

По окончании работы появятся варианты для скачивания текста — STR и TXT.

Результат транскрибации в YouTube

Vocalmatic

Vocalmatic — еще один сервис для автоматического распознавания речи с простым интерфейсом и возможностью редактирования текста. Сервис условно бесплатный, для запуска нужно зарегистрироваться через электронную почту, аккаунт Google или LinkedIn. Сервис бесплатно обрабатывает файлы длиной 30 минут в формате mp3. Vocalmatic англоязычный.

Чтобы попасть на страницу загрузки файлов жмите на New Transcription.

Cервис для перевода аудио в текст Vocalmatic

Интерфейс программы интуитивно понятен:

Выбираете тип документа.
Загружаете ролик в формате mov, mp4, webm, ogg.
Настраиваете язык, на котором воспроизводится запись.
Выбирайте формат выходного файла: по умолчанию или STR — субтитры.
Жмите «Начать». Готовая расшифровка хранится в личном кабинете в течение пяти дней. Ссылка на файл приходит на электронную почту, указанную при регистрации.

Преимущества:

Переводит готовые файлы.
Простой интерфейс.
Работает с аудио и видеофайлами в режиме: .mp3, .flac, .wav, .mp4, .mov, .ogg, .webm.
Конвертирует аудио в текст при помощи искусственного интеллекта.
Поддерживает автоматическую расшифровку на 100 языках.

Сервис анализирует аудиозапись секунда за секундой, определяет, какое слово было произнесено за секунду, и сохраняет каждое слово в расшифровке этой записи. После завершения процесса компьютер выдает набор распознанных слов, для редактирования которых есть встроенный редактор.

Express Scribe Transcription

Express Scribe — профессиональный сервис, популярный у тех, кто расшифровывает аудио и видеозаписи в текст. Программа условно бесплатная, обрабатывает файлы в wav, mp3, wma и dct форматах. Может воспроизводить файлы с переменной скоростью и совместима с большинством текстовых редакторов.

Транскрибирование фото и видео в Express Scribe Transcription

Программа запускается в фоновом режиме, пользователю не надо переключаться между вкладками при прослушивании записи и наборе текста. Автор сам настраивает скорость воспроизведения материала и регулирует качество звука. Текст набирается в отдельном окне программы, а затем копируется в любой редактор для последующей корректировки.

Express Scribe совместима с сервисами распознавания речи Speechpad, Google Docs и т.д. Может расшифровывать текст автоматически и вручную.

Преимущества:

Есть возможность настройки скорости воспроизведения, качества звука, корректировки фонового шума и высоких частот.
Интуитивно понятный интерфейс.
Есть функция закладок для установки их в нужных местах аудиофайла.
Можно набирать текст в окне плеера и включить мини-формат Scribe Mini и работать в Word.
Управление горячими клавишами.

Совместима с большинством программ для перевода.

Не поддерживает русскую версию.
В бесплатной версии нет возможности расшифровки видеофайлов.

Для извлечения звуковой дорожки используйте специальные плееры. Например, Freemake Video Converter.

Нет автоматического сохранения. Если текст из плеера случайно удалится, восстановить его не получится.
Не набирает текст автоматически сама.

Это единственное приложение из списка, в которой текст распознается вручную. Если качество записи плохое, есть помехи или тему обсуждают несколько человек одновременно с транскрибации могут возникать проблемы. В таком случае доверить перевод видео в текст только программе не получится. Транскрибатор должен убедиться, что правильно понял услышанное и верно донес материал. Функции замедления и корректировки звука в Express Scribe Transcription будет незаменима.

Выводы

Несмотря на то, что до сих пор не существует способа, который бы обеспечил стопроцентное распознавание голоса в текст, за последние годы прогресс всё же наметился. Как мы могли убедиться, этому активно способствует корпорация Google. Создав свой Web Speech API, Гугл, практически открыл дорогу всем желающим для создания программ и сервисов перевода речи в текст. Причём, все они потенциально бесплатны!

Если Гугл не забросит развитие словарей распознавания голоса (как это у него, увы, часто бывало с другими проектами), то уже в ближайшем будущем у нас будет шанс получить качественные и бесплатные инструменты голосового ввода. Думаю, что так оно и будет, поскольку даже наш Яндекс ведёт активную работу в данном направлении. А, если будет конкуренция, то будет и развитие.

На сегодняшний же день мы уже можем использовать некоторые наработки, которые дают нам возможность распознавать речь с точностью от 60 до 90% (зависит от Вашей дикции и качества микрофона). В принципе, такой точности достаточно для надиктовки чернового варианта любого текста с последующей его правкой. Поэтому, если Вы до сих пор медленно печатаете, попробуйте голосовой ввод. Вполне возможно, что Вы будете очень довольны 😉

P.S. Разрешается свободно копировать и цитировать данную статью при условии указания открытой активной ссылки на источник и сохранения авторства Руслана Тертышного.

5 лучших приложений для превращения голоса в текст на Android

Времена, когда для того, чтобы превратить свою устную речь в письменный текст, вам нужен был личный секретарь, уже давно прошли. У старого метода, безусловно, есть свои преимущества, но сегодня для преобразования речи в текст гораздо проще и дешевле будет воспользоваться своим самым обыкновенным смартфоном. В этом материале мы составили список лучших конвертеров аудио в текст для Android, так что вам будет намного проще подобрать какой-нибудь себе по душе.

Gboard

Конечно, мы не могли не включить фирменную клавиатуру Google в этот список. Возможно, вам даже не понадобится устанавливать на ваш телефон какие-либо дополнительное программы. На многих Android-устройствах клавиатура Google есть по умолчанию, а на те, где ее нет, Gboard можно загрузить из магазина Google Play.

Хотя приложение Gboard в первую очередь предназначено для физического ввода текста, оно также поддерживает транскрипцию речи в текст. Между прочим, эта функция в Gboard работает очень хорошо, так как задействует все мощности Google. Приложение также поддерживает множество языков и может быть загружено для использования офлайн и более быстрого голосового набора. Gboard также бесплатно и его должно быть более чем достаточно для ваших нужд. Это, безусловно, один из лучших конвертеров аудио в текст на Android.

Evernote

Вот еще одно приложение, возможности которого сложно переоценить. Evernote — одно из самых популярных приложений для создания заметок, которое, помимо прочего, поддерживает преобразование речи в текст. В этом приложении есть множество других функций и возможностей на все случаи жизни, поэтому всем, кто часто делает заметки, Evernote обязателен к ознакомлению. Базовые возможности Evernote бесплатны, но за остальные придётся платить 219 рублей в месяц или 1989 рублей в год.

Speechnotes

Разработчик Speechnotes утверждает, что это бесплатная альтернатива самым дорогим аудио-текстовым конвертерам на рынке. Speechnotes задействует для своей работы сервера Google, а поэтому распознаёт речь ничуть не хуже, чем тот же Gboard. Приложение умеет работать в режиме диктовки несколько часов подряд, а также позволяет отредактировать сгенерированный текст даже во время диктовки.

Speechnotes можно загрузить и использовать бесплатно, но в бесплатной версии есть реклама. Чтобы избавиться от рекламы и получить возможность кастомизировать интерфейс приложения, вам придётся купить Speechnotes за 499 рублей или оформить подписку за 69 рублей в месяц. Во втором случае предоставляется бесплатный тестовый период на 7 дней.

Speechtexter

Это приложение больше остальных зависит от подключения к сети, но оно также работает на основе данных от Google и прекрасно себя показывает, если все в порядке с вашим интернетом. Что делает Speechtexter особенным, так это его собственный словарь, в который можно занести какие-нибудь сокращения и расшифровки для них, а затем использовать во время диктовки. Speechtexter содержит рекламу, но благодаря этому оно абсолютно бесплатно.

Последнее в нашем списке, но не последнее по значимости, – T2S. Это приложение изначально предназначено для преобразования речи в текст. Оно также умеет экспортировать созданную голосовую заметку в аудиофайл и умеет читать вслух выделенный текст в браузере с любого сайта. T2S бесплатно, но содержит рекламу.

Мы надеемся, что хотя бы одно из этих приложений придётся вам по душе и поможет сэкономить в будущем много времени и сих, позволяя набирать текст голосом, а не руками.

Делитесь своим мнением в комментариях под этим материалом и в нашем Telegram-чате.

Онлайн-платежи уже давно стали нормой, оказав заметное влияние на распространение денежных переводов и интернет-торговли. Apple, Google, Samsung, Facebook, ВКонтакте, Яндекс – эти и многие другие компании уже внедрили функции переводов в своих сервисах, предоставив пользователям возможность без лишних проблем не только оплачивать покупки, но и переводить деньги со счёта на счёт. В какой-то момент функция платежей появилась даже в Telegram и, хоть и не пользовалась большой популярностью, привлекла внимание других мессенджеров, которые не захотели оставаться в стороне.

Пожалуй, все мы в детстве читали про невероятные приключения барона Мюнхгаузена. В моем экземпляре книги, помню, очень не хватало иллюстраций, чтобы прочувствовать всю атмосферу произведения. Не говоря о том, что хотелось как-то самому принять участие в происходящем, ведь некоторые рассказы Мюнхгаузена — просто готовый сюжет для кино! В то время все это было невозможно, но современные технологии позволяют взглянуть на знакомые рассказы на новый лад — в формате аудиокниги, сюжет которой можно выбирать самому.

Google – очень большая компания со множеством отделов, департаментов и филиалов, каждый из которых работает над собственным проектом. Чаще всего это что-то вполне логичное и ожидаемое вроде технологий искусственного интеллекта, обновлений Android и даже собственных процессоров. Но поскольку у компании есть несколько экспериментальных подразделений, где разрабатываются приложения и сервисы, совершенно не ориентированные на коммерческий успех, из-под пера Google могут выходить даже такие вещи, как Tangi.