Отправляет email-рассылки с помощью сервиса Sendsay

[TC] конвертация текста в речь и наоборот -

Здравствуйте. В интернете есть огромное количество программ, позволяющих
конвертировать текст в речь. Но нет программ, позволяющих делать обратное
преобразование. Отсюда выходит вопрос: с точке зрения разработчика разве не
является ли задача перегонки речи в текст обратной к перегонки текста в
речь? Чем первая задача сложнее второй? Насколько я понимаю грубый алгоритм
такой: берем букву, по некоторой таблице сопоставляем ей конкретный звук из
таблицы с определенной частотой, длительностью. Обратная задача усложняется
лишь тем, что добавляется тембр. Но если весь документ озвучен одним
голосом, то нельзя ли его зафиксировать? Кто что может посоветовать почитать
на эту тему? Реально ли разработать под себя подобную прогу? (естесственно,
предполагаем, что звук монотонен и хорошо отфильтрован)

С уважением Константин minor04***@r*****.ru

Ответить   Fri, 26 Dec 2014 17:24:15 +0300 (#3189762)

 

Ответы:

Здравствуйте, Константин.

Ну это обратные задачи только по названию, но не по реализации.
По реализации - это принципиально отличающиеся алгоритмы и подходы.

Тем, что при text-to-speech у вас есть однозначный текст, которому вы
сопоставляете некие звуковые сигналы. В случае же speech-to-text у вас есть
высоковариативный набор звуковых сигналов, которым по вероятностным и
лексическим алгоритмам вы пытаетесь сопоставить некий текст. То есть при
speech-to-text исходный материал намного более сырой и требует несравнимо
более сложной обработки.

Нет, вариативность живой речи при произнесении одного и того же текста
огромна. К тому же мы работаем не с буквами, а с дифонами, которых намного
больше, чем букв.
Ваш алгоритм будет более-менее работать только в ситуации распознавания
синтезированной речи, отличающейся низкой вариативностью, а это задача
скорей высосанная из пальца и вряд ли актуальна в реальном мире.

Посмотрите для начала рассказы ЦРТ и Яндекса об их технологиях на Хабре. Это
должно дать представление о фундаментальности проблемы.
К тому же они используют различающиеся подходы, так что можно узнать сразу
несколько концепций. Например, за технологией Яндекса стоит громадная
статистическая база, которой вы, не являясь поисковой машиной, просто не
получите, да и без серьёзного кластера не обработаете.

Как home project, думаю, вряд ли. По крайней мере, если говорить о проценте
удачных распознаваний, который будет не стыдно произносить вслух.
Практика такова, что вопросами распознавания речи занимаются крупные команды
с фундаментальной теоретической базой, причём зачастую являющейся ноухау.
Все желающие уже берут у них STT просто как сервис.
Для домашних проектов, типа интерфейса голосового управления своей системой
умного дома, вполне реально бесплатно использовать API от Google или
Яндекса. Тех нескольких тысяч распознаваний в сутки, которые они дают,
должно вполне хватить.
Ну а если у вас какой-то крупный коммерческий проект, то закупайтесь
платными тарифными планами или встраиваемыми SDK от Nuance или ЦРТ.
На коленке реально писать алгоритмы распознавания чего-то менее
вариативного, нежели речь, например, хлопков в ладоши или свиста. Там,
действительно, просто сравниваете амплитуду колебания с эталонной,
рассчитываете условный коэффициент совпадения и, в зависимости от заданной
степени точности, даёте true или false. Например, можете написать утилиту,
выключающую компьютер по трём хлопкам.
Успехов. Никита.

Ответить   Sat, 27 Dec 2014 01:40:45 +0300 (#3189785)

 

Уточню свой вопрос. Ну я имел ввиду впервую очередь преобразование mp3 с
единым монолитным голосом очень хорошего качества например в txt.
Ну допустим прочитали вам книгу в пустой комнате без помех и необходимо
получить текст. Никакие более серьезные проекты меня не интересуют.

Ответить   Sat, 27 Dec 2014 14:02:28 +0300 (#3190173)

 

Здравствуйте, Константин!

Вы писали Sat, 27 Dec 2014 14:02:28 +0300

Что значит единый монолитный голос... Нет таких голосов. У всех людей голоса
разные. Компьютерная программа, какой бы сложной она не была, на сто
процентов правильно не можетприобразовывать голос в текст. человек,
например, водички попил, у него уже голос чуть другой становится. Или,
например, сердитый он, или наоборот радосный, Много разных оттенков голоса
даже у одного человека бывает. Многие такие программы работают по принципу
подстановки слов из словаря. Примерно распознают слово, проверяют есть ли
такое в словаре, и подставляют похожее. Обще употребительные слова и фразы
они распознают хорошо, но в книгах, и в нашей разговорной речи встречаются
характерные для каждого индивидуума словаи обороты. Распознавалка на такие
вещи реагирует плохо, либо вообще не распознает, либо подставляет совсем не
то, что мы говорим, из словаря. Словари у них огромные, Нно почему бы им
такими не быть, скажем гугл, который может составлять словарь из
пользовательских запросов. И все равно распознавание речи у него хромает. За
последние годы эти технологии весьма продвинулись, но до совершенства еще
очень далеко. Думаю, на сто процентов задача будет
решена только после создания искусственного интеллекта.

Ответить   Sat, 27 Dec 2014 22:31:06 +0600 (#3190192)

 

<< Многие такие программы работают по принципу
J<< подстановки слов из словаря. Примерно распознают слово, проверяют есть
ли
<< такое в словаре, и подставляют похожее.

Приведите примеры подобных программ, хочется потестировать.

Ответить   Sat, 27 Dec 2014 20:06:28 +0300 (#3190215)

 

Здравствуйте, Константин!

Вы писали Sat, 27 Dec 2014 20:06:28 +0300

Приведите примеры подобных программ, хочется
потестировать.

Не приведу. Я этим пользуюсь только на смартфонах. Есть
какой-то плагин для nvda, Думаю, если поискать таких программ много найти
можно. Они
работают через внешние сервисы, гугл, яндекс, распознавание происходит
на сервере, программа транслирует аудио на сервер и получает ответ.
оффлайновые проги работают гораздо хуже. Есть оффлайновый плагин от гугла
для
смарта, для компьютера не знаю. Я бы не советовал заморачиваться, зря
потратите время. Одно дело эсэмэску надиктовать, в которой если будут
ошибки, то это не критично не для пишущего ни для читающего, другое дело
распознать книгу... Имхо читать текст в котором на каждые скажем пять слов
приходится по ошибке, удовольствие мягко говоря ниже
среднего. А тем более такой текст редактировать... Легче под диктовку на
клаве написать.

Ответить   Sat, 27 Dec 2014 23:46:39 +0600 (#3190232)

 

Есть такая программа "Горыныч"

Ответить   Sat, 27 Dec 2014 23:32:11 +0500 (#3190248)

 

Доброго времени суток всем участникам рассылки.
Здравствуйте Константин. Вы спрашивали за программки, некоторое время назад
в одной из рассылок давали сайт где можно поиграться с переводом голоса в
текст.
http://голос.ригс.рф/
Сам не пробовал. Но сохранил пару писем с начальными рекомендациями если
нужно кину в личку, а так, разбираться самостоятельно, или спрашивайте может
кто и подскажит за этот сервис.
С уважением Александр.

Ответить   Sun, 28 Dec 2014 18:46:18 +0700 (#3190567)

 

Здравствуйте, Уважаемые участники рассылки!
дайте, пожалуйста адрес Сергея Волкова. С уважением Дмитрий Шлома.

Ответить   Sun, 28 Dec 2014 16:41:14 +0300 (#3190574)

 

Дмитрий, ниже запрашиваемый вами адрес:
mymou***@m*****.ru

Василий. Г. Харьков .

Ответить   "Indigo" Sun, 28 Dec 2014 19:57:40 +0200 (#3190665)

 

<mymou***@m*****.ru>

Ответить   Sun, 28 Dec 2014 20:05:32 +0300 (#3190729)

 

Всех приветствую!
Evgeniy Shehovcov пишет:
Y другое дело распознать книгу... Y

Вот и я думаю, не проще ли эту книгу в сканер засунуть!

Ответить   "Georgy" Sat, 27 Dec 2014 21:41:14 +0300 (#3190249)

 

Вот и я думаю, не проще ли эту книгу в сканер засунуть!

А вы умеете mp3 книги в сканер засовывать? Поделитесь пожалуйста опытом.

Ответить   Sun, 28 Dec 2014 01:08:36 +0300 (#3190407)

 

Приветствую подписчиков tc.
Ребята, ну сколько же можно мусолить эту тему. Ведь на этот вопрос,
кажется уже был дан обстоятельный ответ. Да и потом, если у меня, например,
уже имеется какая-либо аудиокнига, а я к тому же ещё и слепой, тогда на
кой чорт мне нужна эта книга в текстовом варианте, а тем более, если она
очень хорошо начитана. Идём далее: допустим, что она всё-таки мне нужна в
текстовом варианте. Предположем, пусть я её хочу кому-либо подарить. Тогда
проще всего найти её в интернете в текстовом варианте, либо, купить её в
магазине, и делайте с ней, что хотите, И последнее: Как мне кажется,
какую-либо книгу всегда можно найти либо в интернете, либо купить её.
Ведь в конце-то концов диктор откуда-то её начитывает. Бывают, конечно,
исключения, но это случается не так уж и часто.
Вывод: занятие такой переконвертацией на данный момент глупо и
безсмысленно.

Василий. г. Харьков.

Ответить   "Indigo" Sun, 28 Dec 2014 09:18:39 +0200 (#3190425)

 

Да Страное конечно желание ведь в формате txt или другом текстовом формате
найти почти любую книгу не проблема. Вот в аудиоформате чаще всего
проблемней найти необходимые книги. Поставте ну хотябы программу LbdbViewer
и качайте себе все книги в txt

Ответить   Sun, 28 Dec 2014 12:45:19 +0500 (#3190522)

 

<< Да Страное конечно желание ведь в формате txt или другом текстовом
формате
<< найти почти любую книгу не проблема.
Ну книгу это я для примера привел. Да и книги разные бывают. Одно дело
колобка прочитать, совсем другое мат. Литературу. Вы не найдете её в
пригодном для нас формате. А кроме книг есть еще конспекты лекций, частные
беседы, частные консультации и т.д. а ориентироваться в текстовом формате
гораздо удобнее чем в звуковом. И вообще, цель моего вопроса была не про то
, как прочитать ту или иную книгу, а как технически сделать вышеупомянутый
перевод. Одним словом, думаю, что тема себя исчерпала, я открыл тему, думаю,
что вправе её закрыть. Отдельное спасибо Никите и евгению за обстоятельные
ответы по существу вопроса.

Англоязычных конвертеров живой речи в текст, говорят, довольно много. Из
русскоязычных программ есть, кажется, только Горыныч. Он сделан на базе
какой-то англоязычной программы.
В свое время, в конце девяностых, я покупал его первую версию и
разговаривал с разработчиками. Они, насколько мне не изменяет память, из
МГУ. Тогда они хвалили свою разработку как программу, позволяющую
относительно слабограмотным надиктовывать тексты и получать некий результат.
Но сразу оговаривались, что программу надо приучать к своему голосу, там
была некая методика. Однако хотя я и купил эту программу, но полноценно
запустить ее мне так и не удалось, может быть, просто не хватило
терпения. Да и печатал я всегда быстро, так что особой необходимости не
было.
Где-то год или два назад некоторая необходимость появилась, мы хотели
свои вебинары при помощи этой программы сразу в текст переводить. Однако
оказалось, что хотя с тех пор было сделано три или четыре версии
программы, но при близком разбирательстве все последующие версии были в
целом даже хуже первой. А потому мы эту затею забросили.
И все же пишу потому, что программу найти в интернете можно при помощи
поисковика. Я свой диск лет 15 назад отдал кому-то, но потом находил
программу в интернете как раз где то год назад или два.
Так что поищите, называется она Горыныч, ну и в латинской абривиатуре
где-то похоже. Только вот укрощать ее вслепую очень сложно, если вообще
возможно. Но больше ничего вразумительного тогда нам так и не удалось найти.
А то, что предлагает Гугл, на мой взгляд достаточно несерьезно, по
крайней мере, вряд ли подойдет для озвученных целей.
28.12.2014 14:56, Константин пишет:

то

думаю,

Ответить   Sun, 28 Dec 2014 16:42:41 +0300 (#3190575)

 

Еще вдогонку о Грыныче.
Самое простое, что он позволял делать и это в какой-то мере удалось
сделать, так это голосовое управление компьютером. Некоторые команды
типа открыть документ Ворд, сохранить и так далее удавалось быстро освоить.
Но все равно наиболее сложным оставалось и тут приучение программы под
свой голос, для чего обратная связь была слабоватой.
28.12.2014 14:56, Константин пишет:

то

думаю,

Ответить   Sun, 28 Dec 2014 16:45:51 +0300 (#3190576)

 

Здравствуйте, Сергей!
Сергей Матлахов <flyra***@l*****.ru>

Вы писали Sun, 28 Dec 2014 16:45:51 +0300

И так процитировано полностью все письмо. Посему
замечание [+]
Чрезмерное цитирование,. Во втором письме то же самое. еще
одно
замечание [+] и премод по совокупности.

Ответить   Sun, 28 Dec 2014 20:42:27 +0600 (#3190596)

 

вот раз копал образ диска с
горынычем
версия помоему последняя
новее не видел
сам сильно не тестирывал
кого заинтересует качаем
https://yadi.sk/d/JmzzR9Rxdfpey

Ответить   Sun, 28 Dec 2014 18:47:19 +0400 (#3190601)

 

Здравствуйте.
Посмотрите про распознавание голоса вот тут
http://vorabota.ru/rabota-s-tekstami/golosovoy-nabor-teksta-onlayn-servisi-raspoznavaniya-rechi-v-tekst.html
Сам не пробовал, просто наткнулся на сайт. Может что заинтересует.
С уважением, Андрей.

Ответить   Sun, 28 Dec 2014 18:04:58 +0300 (#3190604)

 

привет рассылка
скажите пожалуйста как решить проблему
открываю драйвер пак
и выходит такое сообщение
не обходим поиск в интернете
*1* - драйвер требует установки. Так как он отсутствует в текущей сборке
DriverPack Solution, попробуйте скачать его здесь:
а показывает что их там всего 5
как установить остальные кроме этого
кнопки начать установку нет
за ранее всем спасибо

с уважением
алексей.

Ответить   Sun, 28 Dec 2014 15:27:10 +0400 (#3190555)

 

Привет, рассылка!

алексей нахалов пишет:

Дальше, по идее, должна быть ссылка, по которой можно найти недостающий
драйвер.

А кнопки "обновить всё" нету? Я специально скачал последнюю версию DRP,
там эта кнопка присутствует. А какой версией пользуетесь вы?

Ответить   Mon, 29 Dec 2014 13:44:17 +0300 (#3190958)

 

29.12.2014 16:44, Алексей Лапшинов пишет:

в данном случае ссылкой является слово "здесь".

Ответить   Sun, 04 Jan 2015 11:36:46 +0600 (#3193380)

 

Приветствую, Константин!
Y А вы умеете mp3 книги в сканер засовывать? Y

Юмор оценён, но Любая озвученная книга имеет текстовый вариант!

Ответить   "Georgy" Mon, 29 Dec 2014 11:58:47 +0300 (#3190883)

 

Здравствуйте, Константин.

Это всё равно решается теми же способами и методами.
Очистка звука речи от посторонних шумов - это как раз далеко не самое
сложное в speech-to-text.

В рамках домашнего решения есть два подхода: рациональный и гиковский.
Рациональный заключается в том, что на фрилансерских сайтах без проблем
можно нанять кучу народа, который занимается перепечаткой аудио.
Гиковский же заключается в том, что вам нужно взять API Google или Яндекса,
которые до определённой степени позволяют использовать себя бесплатно, и
написать программу, которая будет нарезать звуковой файл на допустимые по
размеру отрезки (у Google кажется 10 секунд, а у Яндекса не помню),
отправлять туда на распознавание, получать распознанный текст и склеивать
это в текстовый файл.
Ну соответственно всё это обложить тестами, чтобы не выпадали фрагменты и
можно было контролировать момент, когда API вас будет обрубать за
перегрузку.
Всё это не очень сложно, и даже на GitHub можно поискать уже готовые
реализации. Но текст там получается зачастую хуже, чем при машинном переводе
с другого языка.
Проблема в том, что важную роль в распознавании играет контекст, а при
атомарном распознавании через API по маленьким кусочкам с контекстом всё
плохо. Хотя у Яндекса вроде в API есть какой-то ключ для задания контекста,
но я наизусть документацию сейчас не помню. Возможно это фантомные
воспоминания.
Успехов. Никита.

Ответить   Sat, 27 Dec 2014 21:30:16 +0300 (#3190244)

 

Здравствуйте, Константин.

Это всё равно решается теми же способами и методами.
Очистка звука речи от посторонних шумов - это как раз далеко не самое
сложное в speech-to-text.

В рамках домашнего решения есть два подхода: рациональный и гиковский.
Рациональный заключается в том, что на фрилансерских сайтах без проблем
можно нанять кучу народа, который занимается перепечаткой аудио.
Гиковский же заключается в том, что вам нужно взять API Google или Яндекса,
которые до определённой степени позволяют использовать себя бесплатно, и
написать программу, которая будет нарезать звуковой файл на допустимые по
размеру отрезки (у Google кажется 10 секунд, а у Яндекса не помню),
отправлять туда на распознавание, получать распознанный текст и склеивать
это в текстовый файл.
Ну соответственно всё это обложить тестами, чтобы не выпадали фрагменты и
можно было контролировать момент, когда API вас будет обрубать за
перегрузку.
Всё это не очень сложно, и даже на GitHub можно поискать уже готовые
реализации. Но текст там получается зачастую хуже, чем при машинном переводе
с другого языка.
Проблема в том, что важную роль в распознавании играет контекст, а при
атомарном распознавании через API по маленьким кусочкам с контекстом всё
плохо. Хотя у Яндекса вроде в API есть какой-то ключ для задания контекста,
но я наизусть документацию сейчас не помню. Возможно это фантомные
воспоминания.
Успехов. Никита.

Ответить   Sat, 27 Dec 2014 21:30:16 +0300 (#3190257)

 

Здравствуйте, Константин.

Это всё равно решается теми же способами и методами.
Очистка звука речи от посторонних шумов - это как раз далеко не самое
сложное в speech-to-text.

В рамках домашнего решения есть два подхода: рациональный и гиковский.
Рациональный заключается в том, что на фрилансерских сайтах без проблем
можно нанять кучу народа, который занимается перепечаткой аудио.
Гиковский же заключается в том, что вам нужно взять API Google или Яндекса,
которые до определённой степени позволяют использовать себя бесплатно, и
написать программу, которая будет нарезать звуковой файл на допустимые по
размеру отрезки (у Google кажется 10 секунд, а у Яндекса не помню),
отправлять туда на распознавание, получать распознанный текст и склеивать
это в текстовый файл.
Ну соответственно всё это обложить тестами, чтобы не выпадали фрагменты и
можно было контролировать момент, когда API вас будет обрубать за
перегрузку.
Всё это не очень сложно, и даже на GitHub можно поискать уже готовые
реализации. Но текст там получается зачастую хуже, чем при машинном переводе
с другого языка.
Проблема в том, что важную роль в распознавании играет контекст, а при
атомарном распознавании через API по маленьким кусочкам с контекстом всё
плохо. Хотя у Яндекса вроде в API есть какой-то ключ для задания контекста,
но я наизусть документацию сейчас не помню. Возможно это фантомные
воспоминания.
Успехов. Никита.

Ответить   Sat, 27 Dec 2014 21:30:16 +0300 (#3190262)