Юлия Панова. Расшифровка аудио и видеозаписей
ЮЛИЯ ПАНОВА
Профессиональная расшифровка аудиозаписей

Программа для перевода речи в текст

Программа для перевода речи в текст

Не первый год занимаясь расшифровкой, я постоянно отслеживаю, не появились ли программы, способные заменить ручной труд по распознаванию речи в аудиозаписях.

Конечно, было бы удобно через такую программу автоматически переводить аудиофайл сразу в текстовой документ.

Существуют ли программы для перевода речи в текст?

Да, они существуют. Уже в конце 90-х годов на персональном компьютере были доступны технологии распознавания речи в текст. Например, еще со времен Windows 98 хорошо известна программа “Горыныч”, предназначенная для голосового управления ПК и диктовки текста.

Голосовыми командами можно запускать/закрывать программы, открывать пользовательские папки и файлы, управлять окнами приложений, а также другими функциями. Прежде такое управление было невозможно без клавиатуры или мыши.

Режим диктовки текста

Режим диктовки программы предназначен для ввода текста методом распознавания русской слитной речи. К сожалению качество такого распознавания всегда оставляло желать лучшего. Даже отдельные слова, произнесенные четко и громко часто распознаются не с первого раза. Фразы и целые предложения, как правило, содержат множество ошибок. Хотя в программе есть специальные функции, помогающие ей подстроиться со временем к голосу/речи пользователя и улучшить качество перевода речи в текст, но даже такая подстройка не позволяет полноценно работать в режиме диктовки. Обработка программой уже записанных аудиофайлов с обычной речью абсолютно бессмысленна.

Главная причина проста – русский язык слишком непредсказуем, гибок, и отдельные звуки в словах могут не играть в нем никакой роли – смысл может восприниматься по контексту.

Распознавание речи сегодня

Сегодня технологии перевода речи в текст шагнули далеко вперед. Уже стали привычными бытовые и мобильные устройства, управляемые с помощью голоса. Поисковик Google встроил речевой API в свой интернет-браузер и операционную систему Android. И теперь информацию можно искать используя только микрофон или гарнитуру.

Наиболее значительных успехов здесь добилась американская компания Nuance Communications. Персональный помощник Siri, разработанный этой компанией - неотъемлемая часть операционной системы IPhone. Он может обрабатывать естественную речь владельца смартфона, чтобы отвечать на вопросы и давать рекомендации.

Но, более интересна другая разработка американцев, которая называется Dragon Dictate. Это специализированная программа для распознавания речи. Она позволяет англоязычным пользователям достаточно просто вводить текст речью. Сразу подчеркну, что для эффективной диктовки, с минимумом ошибок и последующих корректировок, для Dragon Dictate должны быть созданы идеальные условия, это:

  1. Высокочувствительный микрофон, лучше гарнитура
  2. Отсутствие посторонних шумов
  3. Не быстрая речь в виде монолога
  4. Предварительная настройка программы на голос пользователя и т.д.

Т.е. расшифровка/распознавание речи в готовых аудиозаписях Dragon Dictate, как и “Горынычу” не под силу. Да и русский язык в ней пока не поддерживается. Другие, менее известные программы описывать нет смысла, т.к. они по всем параметрам уступают сегодняшним лидерам - Google и Nuance Communications.

Поэтому можно подвести некоторый итог. Хотя технологии перевода речи в текст стремительно развиваются, расшифровка аудиозаписей еще долго, а может быть и навсегда останется единственным надежным вариантом распознавания человеческой речи: ведь только человек сможет понять другого человека.

Автор: Юлия Панова

17.01.2014      Просмотров: 1726

Вернуться к списку статей