Здравствуйте, Константин.
> я имел ввиду впервую очередь преобразование mp3 с
> единым монолитным голосом очень хорошего качества например в txt.
Это всё равно решается теми же способами и методами.
Очистка звука речи от посторонних шумов - это как раз далеко не самое
сложное в speech-to-text.
> Ну допустим прочитали вам книгу в пустой комнате без помех и необходимо
> получить текст. Никакие более серьезные проекты меня не интересуют.
В рамках домашнего решения есть два подхода: рациональный и гиковский.
Рациональный заключается в том, что на фрилансерских сайтах без проблем
можно нанять кучу народа, который занимается перепечаткой аудио.
Гиковский же заключается в том, что вам нужно взять API Google или Яндекса,
которые до определённой степени позволяют использовать себя бесплатно, и
написать программу, которая будет нарезать звуковой файл на допустимые по
размеру отрезки (у Google кажется 10 секунд, а у Яндекса не помню),
отправлять туда на распознавание, получать распознанный текст и склеивать
это в текстовый файл.
Ну соответственно всё это обложить тестами, чтобы не выпадали фрагменты и
можно было контролировать момент, когда API вас будет обрубать за
перегрузку.
Всё это не очень сложно, и даже на GitHub можно поискать уже готовые
реализации. Но текст там получается зачастую хуже, чем при машинном переводе
с другого языка.
Проблема в том, что важную роль в распознавании играет контекст, а при
атомарном распознавании через API по маленьким кусочкам с контекстом всё
плохо. Хотя у Яндекса вроде в API есть какой-то ключ для задания контекста,
но я наизусть документацию сейчас не помню. Возможно это фантомные
воспоминания.
Успехов. Никита.