Отправляет email-рассылки с помощью сервиса Sendsay

[TC] синтезатор элегжист

Здравия желаю, уважаемые товарищи рассыльчане!

Подскажите полуюзеру, кто что думает об указанном в теме синтезе...

Т.е., стабильно ли он работает?
Можно ли на слабой машине скорость подрегулировать?
Да и вообще, что там в нём можно подкрутить?

Ежель неважнецкий синтез, то дайте ссыли, будьте добры, на хорошие синтезы...

Мышку не предлагать...

Всех благ!
С наилучшими пожеланиями и уважением.
Николай Александрович. г. Волжский.

Ответить   Fri, 23 Apr 2010 20:03:42 +0400 (#1057844)

 

Ответы:

Приветствую всех и Вас, Белый Волк!
-----Цитата:
Подскажите полуюзеру, кто что думает об указанном в теме синтезе...
Имхо, это синт, похожий на пьяного робота.
Представьте себе замедленную мышку, которая всё же иногда пытается говорить
быстро и поймёте, что такое электжект.
С уважением
Александр Валиев
Профессиональные минусовки на заказ
http://www.aleksvaliev.ru

Ответить   Fri, 23 Apr 2010 19:15:06 +0300 (#1057853)

 

Здравствовать желаю всем и Александру персонально!

Вы писали:

АВ"Имхо, это синт, похожий на пьяного робота.

Так вот потому я и спросил, насколько его можно настроить...
Будет ли он на максимуме своей скорости говорить быстрее катьки на 100%?

Всех благ!
С наилучшими пожеланиями и уважением.
Николай Александрович. г. Волжский.

Ответить   Fri, 23 Apr 2010 20:32:16 +0400 (#1057866)

 

Здравствуйте.

Вы требуете практически несовместимых вещей:
Скорость и естественность речи, по крайней мере у русскоязычных
синтезаторов, - это вещи не совместимые.
Катерина ScanSoft выдаёт одну из самых больших скоростей среди русских
голосов. Поспорить в этом с ней могут только Алёна Acapela Group на своём
максимуме, eSpeak, MewFon 0.4, начиная с NVDA 2010.1, и коммерческий
MyMouse.
У eSpeak из вышеперечисленных самое плохое качество речи, но он берёт как
раз своей скоростью и быстротой отклика.
Для получения максимально естественного синтеза речи следует использовать
Алёну Acapela Group или Ольгу Loquendo. Однако в данном случае вам прийдётся
смириться с давольно низкой скоростью даже по сравнению с Катериной ScanSoft
на её 100 процентах.
Если же вам всё-таки нужна скорость речи, то надо использовать eSpeak, Алёну
Acapela Group на её максимуме, когда она утрачивает всякую естественность и
разборчивость речи, NewFon 0.4, начиная с NVDA 2010.1, ну и, конечно,
коммерческий MyMouse, который является абсолютным рекордсменом по скорости
речи среди русских синтезаторов.
Совместить в одном синтезаторе максимальную скорость и максимальную
естественность речи вы никогда не сможете. Тут можно только говорить о
какой-то золотой середине, которую вам надо определять самостоятельно. Ну
или всё-таки расставить преоритеты: что вам важнее - скорость речи или её
естественность.
Успехов.

Ответить   Fri, 23 Apr 2010 20:58:22 +0400 (#1057904)

 

Приветствую всех.

Извините за длинную цитату, но вынужден ее привести целиком. Поясните, пожалуйста,
где вы увидели требование естественности речи???

Кроме того, под естественностью речи подразумевается "похожесть" синтезированной
речи на человеческую, поэтому любой темп речи, превышающий темп реальной человеческой
речи, будет противоестественным.
То есть нет необходимости загонять темп речи на невообразимые вершины, чтобы
сделать речь синтезатора неестественной. Естественность речи исчезает не потому,
что какие-то параметры речи ухудшаются, а потому что люди так быстро не говорят.

С другой стороны, некорректно говорить о несовместимости высокой скорости и естественности
речи.
Некорректно по той причине, что вы еще ни разу в жизни не слышали человеческую
речь на такой скорости. Приблизительное представление можно получить включив
магнитофонную запись человеческой речи на более быстрой скорости или изменив
частоту дискретизации у цифровой записи, но это лишь приблизительное представление,
поскольку ни магнитофон, ни ЦАП не являются адекватным представлением голосообразующей
системы человека.
Вполне вероятно, что человеческая речь не сильно будет отличаться от речи синтезатора*)
на той же скорости и мы будем вынуждены признать, что естественность речи нисколько
от скорости не зависит.

* Речь, разумеется, идет о синтезаторе, демонстрирующем приемлемую естественность
звучания
на "нормальной" скорости.

Успехов. Анатолий.

Ответить   "i_chay" Fri, 23 Apr 2010 22:21:13 +0400 (#1057962)

 

Здравствуйте, newsmailing.

Вы писали 23 апреля 2010 г., 20:58:22:

а как вообще это понять? вы тут написали какие то противоречивые вещи.

вы тут либо лукавите либо не пользовались Алёной толком. Зачем ее на
максимум ставить? Если она на процентах 80-85 читает очень быстро и
при том довольно разборчиво. Никакая катя и ньюфон Алёне и в подметки
не годятся.

а вы как этот рекорд фиксировали? Я пользовалась и комерческой мышей и
пользуюсь Алёной так что могу сравнивать. Никаких рекордов у мыши нет.
Алёна читает быстро очень быстро и при том все можно понять.

Ответить   Fri, 23 Apr 2010 21:21:19 +0400 (#1057978)

 

Здравствуйте.

А так и понимайте: до определённого порога Алёна по естественности выдаёт
лучший из существующих синтезов русской речи, но на максимальных скоростях
начинает глотать звуки, хотя сама по себе скорость может выкручиваться очень
на много.

Если бы мне тут платили за количество отправленных в рассылку сообщений, или
если бы я был из конкурирующей с Алёной фирмы, то мне имело бы смысл
лукавить или писать сообщения о синтезаторах, которые я не слышал, но,
поверьте мне, это не так. Так что с анализом моей мативации вы ошибаетесь.

А вы в школе учились? Помните как там замеряют скорость чтения? Читается
одинаковый текст, за одинаковый отрезок времени, и подчитывается число
прочитаных слов.

Ответить   Fri, 23 Apr 2010 23:07:16 +0400 (#1058005)

 

Witam serdecznie, Белый Волк!
elecgeste tts voice- это ужасный, мышеподобный дядька, который читает
английский, так, как не одна оля или алёна в жизни не прочитает, чего
только стоит милый перл про микрасофт инторнит експлорер. более
дурного голоса я в жизни своей не видел, а нет, хотя постойте, видел,
мышкой волкова он называется. из синттов могу посоветовать олю, колю,
ну или алёну- это самые лучшие и выразительные. также, на мой взгляд
неплох chatterbox и lh3000, но последний уже на любителя. ещё обратите
внимание на espeak, очень неплохой голос по отклику, ну а к чтению
русского привыкнуть очень даже можно. ну а в нвда есть newfon- очень
даже неплохой, с хорошей выразительностью голос. на всю прочую гадость, даже
глядеть не стоит. разве что, можно ещё поюзать сакраментовские голоса,
из которых лучше всего три: андрей, вика и вячеслав, всё остальное
хлам, либо плохо говорящий, либо невыразительный, либо страшно глючный.
николай, если чего-то интересно, лучше написать в личку, или позвонить
в скайп, могу помочь синтезаторами и файликами для установки оных.

Dziekuje bardzo za przeczytanie i uwagi, Белый Волк (nesronikk***@m*****.ru).
z zyczeniami, happy dolbozavr,
volnove***@y*****.ru
skype- energi15

Ответить   Fri, 23 Apr 2010 21:18:18 +0400 (#1057918)

 

Vande omentaina, весёлый!
Гм... сорри, не хочу начинать очередной холивар, но чем по
выразительности мышка отличается от ESpeak и NewFon? Мышь хотя бы без
акцента читает, в отличие от ESpeak))).

Ответить   Fri, 23 Apr 2010 21:19:04 +0300 (#1057956)

 

Здравствуйте, Андрей.

Ну ради справедливости стоит заметить, что eSpeak и NewFon, действительно,
выразительнее MyMouse. Правда вот их интанационные алгоритмы - это уже
другая история. Это как в той же ScanSoft Katirina вопросительная интонация
реализована по хреновым английским рецептам, то есть повышение скорости и
тона речи в конце предложения, как происходит в английском языке при
вопросительной интонации. От этого мы получаем в ней странный взвизг на
вопросительных предложениях, однако при некотором опыте он всё же
примелькивается и помогает определять вопросы, так как в русском языке на
письме их можно отличать только по знаку в конце. В английском с этим делом
проще - порядок слов всё характеризует.
Так и в eSpeak с NewFon, интонации есть, но они абсолютно не имеют ничего
общего с человеческой речью. По сути, их интонации сделаны за счёт повышения
и понижения тембра голоса при чтении.
В MyMouse или Captin сделан просто монотонный голос, что на мой взгляд
лучше, чем кривые интонации eSpeak и переродившегося Фонемафона.
Лично я считаю, что надо либо делать здоровенный синтезатор метров так на
100 с нормальными интонациями и выразительной речью, либо делать что-нибудь
на 70 кил с абсолютно монотонным железо-бетонным голосом. А все кривые
попытки сделать интонацию на 3-мегабайтном синтезаторе обречены на провал.
Из-за этих неудачных попыток сделать хоть какую-то интонацию в NewFon на
больших скоростях он просто тупо дёргает высотой речи по синусоиде с
амплетудой в 0,5-1 секунду, что делает его речь неразборчевой, тогда как
MyMouse на сопоставимых и больших скоростях из-за своей монотонности
остаётся вполне разборчивым.

Ответить   Fri, 23 Apr 2010 22:42:44 +0400 (#1057984)

 

Vande omentaina, newsmailing!

Вот Капитана я слушать почему-то не могу, да простит меня
Анатолий-сан. У мышки есть интонация внутри слова (каждое слово имеет
повышение к своему концу - сделайте мышь помедленнее и прислушайтесь).
Капитан же не имеет никакой инфлекции голоса, это в принципе одна нота
(Соль большой октавы, если я правильно помню).

А ещё меня дико раздражают паузы в его речи, причём где-то посередине
логической синтагмы(

Ответить   Fri, 23 Apr 2010 22:11:48 +0300 (#1058009)

 

Приветствую всех.

Судя по указанным объемам, речь идет о синтезаторах, использующих корпусный метод
синтеза. К сожалению, и у этих синтезаторов тоже присутствует проблема с реализацией
просодических характеристик (в т.ч. и фразовых интонаций). Во-первых, просодические
характеристики так же, как и при аллофонно-дифонном методе, могут формироваться
по определенным алгоритмам (совершенство которых вы ставите под сомнение).
Во-вторых, сохранение звуковых фрагментов с просодическими вариациями увеличивают
базу в геометрической прогрессии, причем чем больше слов охватывает звуковой
фрагмент, тем сильнее раздувается база (до гигабайта и более). И ту дело не столько
в размерах базы как таковых, сколько во времени, которое требуется для обработки
такой базы -- ведь синтезатор должен подобрать фрагмент или фрагменты по определенным
критериям (т.е. "наилучший" вариант звуковой реализации конкретного текста).
Конечно, со временем быстродействие процессоров увеличится и проблема перестанет
быть столь острой.
В-третьих, выгода от хранения звуковых фрагментов с определенными просодическими
характеристиками заметна лишь при стопроцентном попадании (т.е. синтезируемый
текст по всем своим параметрам имеет реализацию в виде единственного и непрерывного
звукового фрагмента).
Чем сложнее предложение или чем чаще встречается нетривиальные сочетания слов
(а в этом, согласно Лотману, и есть суть поэзии, да и художественного текста
вообще), тем меньше вероятность точного попадания. А это значит, что от больших
звуковых фрагментов вы будете вынуждены переходить ко все более мелким, пока
не дойдете до "обычного" аллофонно-дифонного синтеза, то есть опять вернетесь
к просодическим алгоритмам.

Кривые обречены -- это верно, но далеко не все попытки являются кривыми. И они
не обречены, но имеют свои трудности.
Одно из решений -- в тех случаях, когда интонация действительно несет в себе
важную (недублируемую) информацию, снабжать текст дополнительной контекстнозависимой
информацией( так называемая речевая разметка). Это позволит синтезатору более
адекватно выбирать параметры речи, которые нужно менять, и границы их изменений
(или более корректно строить цепочку фильтров).

Справедливости ради надо заметить, что разработчики фонемафона достаточно высоко
(по критерию качество -- компактность)оценивают разработанные ими алгоритмы реализации
просодических характеристик. Другое дело, что, скорее всего, эти алгоритмы не
рассчитаны на такую высокую скорость и поэтому искажают речь, а это уже может
быть следствием того, что тот человек, который нигде не фигурирует как разработчик
фонемафона, но представляется как владелец прав на этот синтезатор, и те, кто
по собственному разумению дорабатывают фонемафон, вряд ли принимают во внимание
особенности этих алгоритмов.

Если не секрет, с каких пор амплитуда измеряется в секундах? И что это значит
в физическом смысле?

Успехов. Анатолий.

Ответить   "i_chay" Sat, 24 Apr 2010 01:00:01 +0400 (#1058072)

 

Приветствую.

Если вспомнить уроки математики в старших классах школы, то там нас учили,
что любая функция имеет область значений и область определения. В самом
общем смысле амплитуда определяется так: берётся функция a*sinus(b*x+c).
Параметр a называется амплитудой, параметр b - частотой, а параметр c -
сдвигом фазы. Если наша функция в качестве области значений имеет время, а в
качестве области определения, например, высоту звука, то амплитуда
измеряется в единицах времени и является интервалом от -a до +a. Правда, что
имел в виду под амплитудой автор сообщения, я знать не могу, поэтому лишь
привожу теорию. А вообще разработчикам синтеза речи, прежде всего следовало
бы сначала изучить теорию вэйвлетов. Там в качестве базиса временных рядов
для аппроксимации сигнала, как раз берутся синусы. Возможно это может и
пригодиться при модулировании голоса.
--
Евгений Корнев.

Ответить   Sat, 24 Apr 2010 14:24:49 +0700 (#1058320)

 

Приветствую всех.

Евгений пишет:

Если вспомнить уроки физики в средних классах средней школы, то там недвусмысленно
было сказано, что время назад не течет и в физических процессах является величиной
независимой. Поэтому ваше попытка представить время в качестве зависимой величины
в физическом смысле абсолютно абсурдна (нарушает ряд фундаментальных физических
законов).

Круговой частотой

Просто фазой.

. Если наша функция в качестве области значений имеет время, а в

Дважды (а точнее, бесконечное число раз) войти в одну реку???
Вы прямо-таки потрясаете основы мироздания.
Понятно, что вы не знали, какой физический смысл вложил тот человек, которому
был адресован мой вопрос. Но теперь то вы должны знать, какой физический смысл
вы сами вложили в такое время, которое принимает значения от -A до A и является
зависимой величиной.
Может, обнародуете этот смысл?

Математику Евгению, прежде чем давать советы в непрофильный лист, следовало бы
сначала изучить хотя бы основы цифровой обработки сигналов, чтобы избежать синдрома
первокурсника, который, впервые прочитав Аристотеля, думает, что никто до него
Аристотеля не читал.
С чего вы взяли, что вейвлет-преобразования не используются в задачах обработки
речи?
Кроме того, заметьте, что речь идет о синтезе речи по тексту (т.е. о весьма узкой
области обработки речи), почему в задачах tts вейвлет-преобразования могут найти
применение и почему они будут более эффективны, чем другие варианты преобразования
из временной области в частотную и обратно, вы умалчиваете. Из-за этого складывается
впечатление, что вы не знаете предметной области, для которой рекомендуете некий
метод; не знаете, применим ли он в этой области или нет; не знаете, какие методы
в этой области применяются.
Тогда в чем смысл вашего совета и какое отношение он имеет к обсуждаемому вопросу?
Или вы полагаете, что о вейвлетах никто, кроме вас, не знает?

Кстати, а что такое "модулирование"? Про модуляцию знаю, а про модулирование
--нет.

Успехов. Анатолий.

Ответить   "i_chay" Sat, 24 Apr 2010 18:19:43 +0400 (#1058501)

 

Здравствуйте.

-----------------------*- Original Message -*> > Если вспомнить уроки математики в старших классах школы, то там нас учили,

Уважаемые господа, у меня нет ощущения, что вы обсуждаете эти
темы, во-первых, в подходящем месте, а, во-вторых, в подходящем тоне.

В связи с чем настоятельно предлагаю вам либо свернуть публичную
дискуссию, либо сменить тон и приблизить разговор ближе к темам, для
которых этот лист создан.

Ответить   Sat, 24 Apr 2010 19:23:20 +0400 (#1058553)

 

Здравия желаю, уважаемый товарищ Весёлый!

Ну, тогда уж будьте добры, подскажите пожалуйста, где ж мне эту барышню вместе
с файликом взять?

Да и подробненькая инструкция по установке и настройке тоже приветствуется!

Плюс вопросик:
А насколько сильно грузит процессор алёнка?
Да и как скажется её установка и использование на машине с ооочень небольшим
количеством оперативки?

P.S.: флэшки под рукой нет, поэтому не смогу перенести алёнку с компа на ноут
сейчас для последующей установки под вашим чутким, по скайпу, руководством...

Всех благ!
С наилучшими пожеланиями и уважением.
Николай Александрович. г. Волжский.

Ответить   Sat, 24 Apr 2010 10:18:23 +0400 (#1058284)

 

всем привет!
назрел у меня к вам вот какой вопрос.
есть ли какая-нибудь прога, с помощью которой можно выкачивать фотографии с
таких сайтов, например, как radikal.ru? а то стандартно через меню сохранить
как уж очень долго получается.
традиционно заранее благодарю всех откликнувшихся.

с уважением, надежда.

Ответить   Sat, 24 Apr 2010 13:03:39 +0400 (#1058310)

 

Здравствуйте вам, Белый!
Несколько слов по теме "[TC] синтезатор элегжист":

Ничего нельзя подкрутить, работает нестабильно и вообще, имхо, не
прегоден для повседневной работы.

http://win.tiflocomp.ru/synths/captain/index.php

Ответить   Fri, 23 Apr 2010 20:22:18 +0300 (#1057926)

 

Здравствовать всем участникам рассылки.
Установлен macro torrent 2.0, но при загрузке компа всегда вылезает окно с
просьбой загрузить его, но если нажать отмену или поставить флаг не
спрашивать до следующей перезагрузки, оно всё равно запускается и
соответственно начинаются раздачи и загрузки. Далее приходиться вручную
останавливать все торренты. А это не очень удобно. Где надо поставить флаг,
чтобы сия программулина не автозагружалась?
Заранее благодарен за помощь, с уважением, Игорь.
brigu***@b*****.ru

Ответить   Sat, 24 Apr 2010 00:29:38 +0600 (#1057967)

 

Привет всем!
Игорь, а в настройки вы не пытались заглянуть?
ctrl+p и табом легко найдёте нужное.

Ответить   Sat, 24 Apr 2010 07:03:34 +0400 (#1058158)