23.11.2016 искусственный интеллект, нейронная сеть, чтение по губам, Google DeepMind
Искусственный интеллект DeepMind научился читать по губам лучше, чем человек-специалист. Система способна расшифровывать даже самые сложные фразы, определять слова, произносимые людьми, склонных «глотать» окончания слов, а так же, обладающих нетипичной мимикой
лица.
Специалисты проекта DeepMind компании Google и учёные из Оксфордского Университета объединили усилия для обучения системы искусственного интеллекта на базе нейронных сетей искусству чтения по губам. Системе скормили 5 тыс. часов записей различных программ телеканала BBC, включая Newsnight, BBC Breakfast и Question Time. В результате система стала способной распознавать слова по движениям губ человека с
точностью, которая недостижима для людей, включая особо подготовленных для такой работы специалистов.
После процедуры обучения система искусственного интеллекта оказалась способной расшифровывать даже самые сложные фразы, определять слова, произносимые людьми, которые склонны глотать окончания слов, а так же обладающих не типичной мимикой их лица. В качестве тестового задания из набора различных телепередач были выбраны 200 случайных фрагментов. Профессионал
смог безошибочно распознать лишь 12,4% слов, в то время как Google DeepMind показал результат в 46,8%, безоговорочно выиграв не только у человека, но и у других автоматических систем чтения по губам.
«Всё это является огромным шагом на пути к созданию полностью автоматических систем чтения по губам» — говорит Зиэнг Жоу (Ziheng Zhou), учёный из Университета Оулу (Финляндия). «И это стало возможным только благодаря огромному набору
исходных данных, на которых эта система была обучена». О величине набора исходных данных говорит тот факт, что в вышеупомянутых 5 тыс. часов записей содержалось около 118 тыс. предложений, произнесённых разными людьми, лица которых снимались с различных ракурсов.
Успех совместного мероприятия исследователей из Оксфордского Университета и компании Google стал возможен, благодаря использованию
результатов более ранних исследований учёных Оксфорда, на основе которых в своё время была создана система чтения по губам GRID. В качестве исходных данных эта система использовала данные об артикуляции людей при произношении 51 ключевого уникального слова. Система DeepMind, обучена на наборе данных, содержащем около 17 500 уникальных слов, что ощутимо сказывается на качестве её работы.
Кроме того, искусственный интеллект Google был обучен на образцах
реальной человеческой речи, а не на 33 тыс. синтетических предложений, составленных специально для обучения система GRID. Поэтому DeepMind менее восприимчива к особенностям каждого конкретного человека и к эмоциям, которые редко, но сильно проявляются на лице говорящего человека.
В настоящее время специалисты Google и Оксфорда обрабатывают набор данных, использованный ими для обучения
искусственного интеллекта, с целью создания на его основе общедоступного учебного ресурса. Этим ресурсом смогут пользоваться все разработчики систем автоматического чтения по губам, в том числе группа Яниса Ассаеля (Yannis Assael), которая занимается разработкой системы LipNet.
Вполне возможно, что скоро усилия учёных и инженеров, приведут к созданию бытовых и потребительских электронных устройств, способных понимать то, что мы им говорим, читая это по
нашим губам.