24.10.2014
По некоторым оценкам, мировой рынок голосовых технологий составляет $1,5 млрд и растет примерно на 20% в год. Абсолютный лидер — американский Nuance. Но и российские компании неплохо справляются с распознаванием речи, причем как родной, так и английской.
Первое решение в области распознавания речи было предложено в 1962 г., когда на всемирной выставке в Сиэтле компания IBM представила компьютер IBM Shoebox (название связано с тем, что и по форме и по размеру компьютер напоминал коробку для обуви). Компьютер был снабжен микрофоном и был способен распознавать продиктованные на английском языке цифры – от 0 до 9, то есть распознавал 10 фиксированных слов.
Сегодня мировой рынок голосовых технологий (распознавание речи, голосовая биометрия – идентификация диктора, применяемая, в частности, в судебной медицине, – а также приложения, используемые в военных целях и в здравоохранении) оценивается в $1,5 миллиарда и растет примерно на 20% в год. Большая часть продаж приходится на рынок Северной и Южной Америки (более 50%, в том числе США – около 40%), именно на этом сегменте наблюдается и самый быстрый рост. Абсолютный лидер рынка голосовых технологий – американская компания Nuance Communications (доля около 70%). Nuance принадлежит большая часть патентов на голосовые технологии, и она ведет агрессивную маркетинговую политику, постоянно скупая конкурентов. Рынок голосовых технологий РФ составляет 3–5% мирового. Несмотря на жесткую политику Nuance, российские компании успешно продвигают на рынок свои продукты (в том числе распознавания русской и английской речи). Среди лидеров – компании Speereo, Центр речевых технологий (ЦРТ), RealSpeaker Lab. Свои решения предлагает "Яндекс".
Доля распознавания речи в общем объеме голосовых технологий составляет около 70% и остается стабильной. (Если на американском рынке возрастает доля распознавания речи, то на азиатском – растет сегмент, связанный с голосовой биометрией).
Интерес к распознаванию речи резко возрос в последние годы в связи с ростом рынка мобильных устройств. Здесь лидером является Google Voice Search – голосовой ввод поискового запроса.
Человеко-машинный голосовой интерфейс
Компьютеры хорошо понимают нас, когда мы говорим на их языке: набираем текст или кликаем (мышкой или пальцем) на иконки на экране. Но нам хотелось бы другого: говорить с ними на нашем языке, человеческими словами.
Мы бы хотели не стучать по клавишам, а говорить и видеть, как слова превращаются в печатный текст. Врач, наверняка, захочет освободиться от писанины, которой он вынужден заниматься во время приема пациента, и просто диктовать машине результаты обследования и диагноз. Мы бы, конечно, хотели поговорить с человеком, который не владеет ни одним из языков, которыми владеем сами, и при этом компьютер –прямо как в Star Trek– понимал нашу речь, переводил ее на язык нашего собеседника и произносил. Есть много ситуаций, когда у нас заняты руки, и мы бы хотели использовать свободный в этот момент канал связи – речевой. "Иногда эта функция промышленных и бытовых устройств становится особенно актуальной: она нужна тем, кто находится за рулем автомобиля; выполняет работы на высоте или при низких температурах; больным и инвалидам. Также голосовое управление поможет при необходимости экстренной остановки устройств и механизмов", – говорит Дмитрий Козин,руководитель отдела перспективных разработок компании "ИнтэлЛекс" и проекта "Лингурус". "Распознавание речи – это дополнительный канал ввода-вывода в человекомашинном интерфейсе. Примерами таких гибридных интерфейсов могут служить системы управления современными истребителями, новейшие системы экипировки пехотинцев, спасателей, парамедиков. Руки и глаза у таких пользователей заняты, кнопки и тачпады размещать особо негде, да и времени отвлекаться на них нет", – рассказывает руководитель компании Speereo Software Константин Ламин.
Голосовой поиск
Один из самых разработанных случаев, уже нашедших реальное применение, – диктовка адреса навигатору. Здесь распознавание значительно проще, чем при слитной речи или даже при диктовке произвольного текста. Список улиц – сравнительно невелик по сравнению со словарем целого языка и меняется достаточно медленно, кроме того, адрес имеет четкую грамматическую структуру – в нем наверняка встречается улица и номер дома. Точность распознавания адреса уже сегодня превышает 95%.
Ввод адреса в навигатор – это сильно урезанный вариант голосового поиска, который встроен во многие поисковые системы и в принципе должен распознавать любые слова языка. Но есть одно существенное послабление, которое делает ошибки при распознавании речи в этом случае не такими критичными (в навигаторе приблизительное распознавание вообще бессмысленно – улица Вешняковская и улица Вишневского находятся в разных концах города). Константин Ламин из Speereo Software охарактеризовал существующие решения так: "Толком голосовой поиск работает только у Google. Непосредственно распознавание там реализовано качественно, но без особых прорывов. Сильная сторона этого решения – применение двухуровневого выбора (голосом, а потом еще и из списка выдачи). То есть если точности распознавания на одном уровне не хватает, то в список из 10 или 20 вариантов правильный ответ попадет с куда большей вероятностью".
Call-центр
Виктор Осетров, генеральный директор RealSpeaker Lab, так описал "автоматический" call-центр (правда, работающий на английском языке): "Однажды у меня возникла проблема с неправильно доставленным грузом. Я позвонил в курьерскую службу, для того чтобы уточнить адрес доставки. Каково было мое удивление, когда за 10 секунд я получил ответ от специалиста. Девушка бодрым голосом задавала мне уточняющие вопросы, и только в конце разговора мне удалось понять, что со мной говорил робот".
Компания "Яндекс" создала технологию Yandex SpeechKit, применимую в том числе для колл-центров (доклад о таком использовании распознавания речи сделал Илья Мельников,разработчик Yandex SpeechKit, на очередной научной конференции "Искусственный интеллект и естественный язык" в Сколково). Есть русское решение у ЦРТ –VoiceNavigator.
Такому колл-центру в определенном смысле проще, чем, например, навигатору. Навигатору предпочтительнее быть автономным устройством, то есть иметь и программу и словарь в собственной памяти и не зависеть от того, подключен он к интернету или нет. А вот у колл-центра такой проблемы, скорее всего, не будет – и программа распознавания может работать не на компьютере клиента, а в облаке. (Решение "Яндекса" так и называется:SpeechKit Cloud.) Фактически компьютер-клиент получает аудио-пакет и передает его по сети. А распознавание происходит на мощных серверах, где работают программы, которые прошли обучение на огромных словарях. Программы распознавания, которые использует "Яндекс", "знают" от 500 тыс. до миллиона слов – в зависимости от темы разговора. Вероятность того, что программа с таким большим словарем столкнется с незнакомым словом, достаточно мала, это дает возможность с высокой точностью распознавать речь в реальном времени.
Слитная речь
Но как только мы снимаем любые ограничения на тему, темп, качество речи, наличие шумов, задача усложняется драматически. Константин Ламин так описал сегодняшнее состояние проблемы: "В настоящий момент проблема успешно (для первого поколения) решена для ряда узких задач. Не решена задача распознавания свободной речи на заранее неизвестную тему с высокой точностью – то, с чем любой секретарь справляется весьма успешно. Различные системы все еще требуют такого количества исправлений, что проще вводить текст по старинке… Самые успешные решения – на английском. Дело в более жесткой структуре языка и в количестве инвестиций. Русский и азиатские тональные языки здесь в менее выигрышном положении". Дмитрий Козин уточняет: "Главная трудность… заключается в значительной мере в синтетическом характере языка. В русском языке употребляется огромное число словоформ. Как следствие, возникает необходимость работы с большим словарем в миллионы словоформ».
А ведь распознавание – это задача, которая, вообще говоря, должна решаться со скоростью речи. Это, конечно, требует очень серьезных вычислительных ресурсов.
Как работает распознавание
Распознавание речи – это задача искусственного интеллекта. Человек умеет ее решать, но и человек распознает речь только с некоторой точностью, в зависимости от внешних условий. В общем виде Илья Мельников обрисовал процесс распознавания речи так: "У нас есть аудиозапись речи, и ее нужно преобразовать в текст. Аудиозапись подается на вход первой части системы распознавания речи, которая называется акустическая модель. Акустическая модель преобразует речь на входе в последовательность фонем на выходе. Фонема — это звучание той или иной буквы алфавита. Далее нужно понять, какое слово или словосочетание представляет собой полученная последовательность фонем. Эту задачу решает вторая часть системы распознавания — языковая модель. Языковая модель преобразует последовательность фонем на входе в сказанное слово или словосочетание на выходе".
Мы говорим не буквами, которые можно было бы последовательно распознать, и даже не словами – а целыми фразами. И соответствие между звучащей речью и ее текстовым выражением всегда только приблизительное. Дмитрий Дырмовский, генеральный директор ЦРТ,говорит: "Задача полноценного распознавания слитной речи не решена нигде в мире, однако достоверность распознавания уже достаточно высока для использования технологии на практике… Технология ЦРТ позволяет распознавать более 10 000 фонов – отдельных звуков… В словах "Даша" и "Маша", которые похожи между собой, звук "а" тем не менее звучит по-разному, так как речевой аппарат по-разному произносит одну и ту же гласную после звуков "д" и "м"".
Константин Ламин, характеризуя технологию, которую разрабатывает его компания, отмечает: "Мы имеем дело с фразами, а не со словами, так как стоящие рядом слова влияют друг на друга. Собственно, отдельно слова во фразах уже никто и не распознает, это буквально прошлый век. "Звуки" – тоже неправильное слово. Звуков, которые есть в воображении лингвистов, словарной транскрипции, вот всего этого в цифровой реальности не существует. Существуют более мелкие и более многочисленные части. У нас их несколько сотен. У нас собственная система автоматической транскрипции текста в акустическую модель. Дальше мы считаем признаки сигнала, и ищем максимальное соответствие с моделями по функции подобия".
Похожая схема реализована и в проекте"Лингурус". "Наша система базируется на собственном фонетическом "алфавите", в котором все звуки речи (псевдофонемы) могут быть охарактеризованы по суперпозиции некоторого множества численных признаков. На основе этих признаков мы можем дать вероятностный ответ – какая из псевдофонем звучит на данном конкретном участке речевого сигнала. Таким образом, имея словарь с транскрипциями, мы можем вычислить вероятность звучания каждого слова целиком… Отличительной чертой транскрипций, которые используются в "Лингурусе", является учет возможной редукции и подмены безударных гласных звуков, ассимиляции звуков по мягкости и звонкости, а также многих других особенностей произношения, характерных для беглой речи", – описывает ее работу Дмитрий Козин.
То есть при распознавании мы как бы движемся к решению проблемы с двух сторон. Мы предельно подробно разбираем получаемый звук — дробим его на фоны, и из этих фонов пытаемся собрать звуки речи. А с другой – мы используем звучащий словарь. Слова из этого словаря программа учится распознавать по реальному звучанию, для чего используется процесс обучения. Если звучание, собранное нами из фонов, совпадает с одним из звуковых образов слова или фразы, мы полагаем, что фразу распознали. Как мы уже говорили, это очень трудные задачи, и пока удача нам сопутствует далеко не всегда.
Чтение по губам
Слабослышащие люди часто умеют распознавать речь, читая по губам – мимика содержательна, она позволяет довольно точно представить визуальный образ звука. Эту особенность использовали разработчики системы RealSpeaker. Подключение визуального канала может значительно упростить и уточнить распознавание речи. Это вполне реально, поскольку большинство современных компьютеров снабжено не только микрофоном, но и фронтальной видеокамерой. "Использование видеоканала позволяет выявить объект интереса из общего потока и автоматически подавить посторонние шумы, – рассказал Виктор Осетров.— Простой пример: представьте себе слепого человека, который едет в переполненном автобусе, и ему предлагают распознать чью-то речь. Задача отнюдь непростая, и человек легко ошибется. Так же и микрофон: он хоть и будет работать, но показатели точности будут невысокими. А представьте себе, внезапно у этого слепого человека наступает прозрение: он видит объект интереса и начинает "подавлять" посторонние шумы, основываясь на представленных аудио- и видеоданных. Такой же эффект предоставляет использование дополнительного видео. Программа не просто распознает речь, она дополняет звуковой распознаватель и делает его эффективным, когда это нужно".
То, что программа работает вполне успешно, показал любопытный тест: Виктор Осетров отвечал на вопросы, заданные ему по email, надиктовывая ответы программе RealSpeaker. Правда, как он пояснил, потом потребовалась небольшая редактура — в основном правка окончаний и предлогов.
Рынки и продажи
Альберт Ефимов, руководитель робототехнического центра Сколково,считает, что выйти на рынок программ распознавания речи под силу далеко не всем: "Распознавание речи – междисциплинарная тема на стыке машинного обучения (математика, лингвистика) и акустики (физика). Нужен очень хороший запас фундаментальных знаний для решения задач. Кроме того, в области распознавания речи очень много запатентованных решений. Мы технологически отстаем не только в силу сложности языка. Вопрос в размере рынка: на русском языке говорит около 160 миллионов человек, а на английском – миллиард. Для какого языка выгодней строить системы распознавания? В этом смысле задача машинного понимания родного языка – стратегическая для государства. Поэтому компании Speereo, "ЦРТ-инновации", RealSpeaker Lab – резиденты Сколково. У них очень интересные проекты и лидирующие команды".
Проблема понимания
Константин Ламин смотрит с глобальных позиций:"Главная трудность распознавания речи в том, что для решения задачи в общем виде, скорее всего, потребуется какая-то степень понимания системой того, что сказано. Только некий интеллект может по ряду дополнительных соображений решить в сложных случаях, что именно сказано. Речь – это интерфейс между разумными существами. С обеих сторон. Попробуйте записать со слуха речь на незнакомом языке – и вы восхититесь тем уровнем, что достигнут сейчас компьютерными системами. Они ведь сейчас записывают на слух слова незнакомого языка, не понимая сказанного. То есть для общего решения задачи распознавания речи нужен Искусственный Интеллект. Впрочем, как уже бывало не раз, возможно, удастся решить эту задачу и с помощью совершенно несвойственных человеку ухищрений – многое компьютеры делают не так, как люди, и причем делают лучше. Но все же в нашей задаче присутствует человек, поэтому я лично склоняюсь к первому варианту".
Качество распознавания речи при фиксированной тематике и минимальном шуме сегодня очень высокое. У ведущих компаний точность превышает 95–97% (примерно такая же, как и у человека). При распознавании слитной речи произвольного диктора (то есть такого, чей голос программа не знает заранее) и наличии шумов точность распознавания резко падает. Человек справляется с такого рода задачей лучше, чем компьютер. Но и в этом направлении ведущие компании предлагают решения, которые в среднесрочной перспективе (5–10 лет) вполне могут приблизиться по качеству распознавания слитной речи компьютером к возможностям человека.
Владимир Губайловский
22 октября 201412:43Подробнее:http://i.rbc.ru/publication/analytic/kak_najti_obshchij_yazyk_s_mashinoj_rossijskie
Другие новости
20.01.2015
Speereo начала продажи своего Универсального Речевого пульта Speaky
Начались производство и продажи серийного продукта компании Speereo.
Речевой универсальный пульт Speaky - первый в мире универсальный пульт с речевым управлением.
15.09.2014
Speereo приняла участие в Днях инноваций Министерства обороны Российской Федерации
В днях инноваций Министерства обороны Российской Федерации на полигоне в Алабино специалисты компании представили прототипы подразделения Speereo Defence и приняли участие в круглом столе с представителями ВПК и силовых структур.
15.09.2014
Speereo заключила контракт с Toyota InfoTechnology Center Co.,Ltd.
Toyota проявила интерес к нашему решению. Этот интерес пока проявился в контракте на проведение испытаний, который был подписан на днях
09.01.2014
Речевой Пульт Speereo на Indiegogo
Speereo разместила свой проект на краудфандинговой платформе Indiegogo