Ссылки для упрощенного доступа

Развитие и применение технологий распознавания речи в России


Russia -- Ronzhin Andrei, leader of the Speaking Information group, 29Jun2006
Russia -- Ronzhin Andrei, leader of the Speaking Information group, 29Jun2006

Программу ведет Татьяна Валович. Принимает участие корреспондент Радио Свобода в Санкт-Петербурге Татьяна Вольтская. Гость студии - кандидат технических наук, руководитель группы речевой информатики Петербургского института информатики и автоматизации Андрей Ронжин.



Татьяна Валович: Технологии распознавания речи на сегодняшний день считаются одними из наиболее перспективных в мире, что еще раз подтвердила, проходящая в эти дни в Петербурге 11-я международная конференция «Речь и компьютер».



Татьяна Вольтская: Около 200 российских и зарубежных специалистов из 33 стран мира обсуждают проблемы взаимодействия компьютера и человека в естественной форме, делятся опытом внедрения и использования речевых и многомодальных технологий в производстве, медицине, в сфере культуры и образования. Для чего нужно научить компьютер понимать человека непосредственно? Оказывается, для решения очень многих насущных проблем. Существует, например, криминалистический анализ речи, - говорит коммерческий директор Центра речевых технологий Юлия Хитрова.



Юлия Хитрова: Звонит человек в милицию и говорит: я подложил бомбу на вокзале. Потом этого человека через какое-то время, я надеюсь, ловят, и человек говорит: да ну что вы, я и в мыслях не имел, никуда я не звонил и ничего я не знаю, это все поклеп. И вот с помощью нашего оборудования и наших методик эксперт может доказать, причем доказывается не так, что эксперт говорит "вы знаете, я думаю, наверное, это он", а производит измерения.



Татьяна Вольтская: В индустриальных условиях у компьютера жесткие задачи - распознавание команд, определенных участков речи. Гораздо более сложная задача - распознавание слитной речи.



Юлия Хитрова: Это то, к чему все стремятся, что более или менее сделали американцы. Мы сейчас стараемся делать для русской речи и далеко продвинулись в этом направлении.



Татьяна Вольтская: Что касается практического применения, то хорошие результаты есть в области реабилитации речевых функций у больных, - говорит специалист из Томского университета систем управления и радиоэлектроники Владимир Бондаренко.



Владимир Бондаренко: Основные работы, которые сейчас ведем - это речевая реабилитация после операции на гортани. И второе - диагностика по голосу возможных заболеваний гортани. Самое тяжелое - это следующее, когда гортань полностью удаляется, он дышит через трахеостому, и он становится полным инвалидов, он не может говорить. У нас разработана методика восстановления чисто физиологическое речевой функции. Для того чтобы все это проделать, мы вынуждены ставить ему компьютер, он в него говорит, видит, что у него получается, и начинает подстраиваться под те задачи, которые ему устанавливает логопед.



Татьяна Вольтская: Для установления естественного общения с компьютером учитывается не только речь, но и движения губ, жесты, мимика. Пока, если компьютер удается настроить на понимание, например, англичанина, то японца он уже не поймет. Идея компьютерного эсперанто возникала, но была отвергнута - все равно разные народы улыбаются и жестикулируют по-разному.



Татьяна Валович: Сегодня у нас в гостях кандидат технических наук, руководитель группы речевой информатики Петербургского института информатики и автоматизации Андрей Ронжин. То, что в середине прошлого века описывалось в фантастических романах, по-моему, становится действительностью. На ваш взгляд, как быстро развиваются технологии распознавания и синтеза речи и насколько ощутим прогресс тех достижений, которые, например, были представлены на нынешней конференции по сравнению с предыдущей?



Андрей Ронжин: Я думаю, сейчас настало такое время, когда идеи, которые были задуманы еще, может быть, 50 лет назад готовы к реализации. Технологии и техника сейчас находятся на таком высоком уровне, что хватает быстродействия и возможностей, чтобы реализовать эти идеи. То есть если 50 лет назад занимались только распознаванием изолированных слов, и надо было произносить команды не так, естественно, а по словам, то сейчас уже решена проблема распознавания изолированных слов, перешли к распознаванию слитной речи, как уже сказала Юлия Хитрова, и занимаются более интересной задачей, это распознавание спонтанной речи, как мы сейчас с вами говорим; возникают и отклонения, и вставляем какие-то другие слова, какие-то отклонения в фонетике, в лексике, вот все эти проблемы необходимо учитывать и это более сложная задача.



Татьяна Валович: Существуют две полярные задачи. С одной стороны, это синтез речи, с другой стороны - распознавание. Наверное, синтез речи, который можно произвести сейчас, это более легкая задача. Как вы оцениваете эти проблемы?



Андрей Ронжин: Конечно же, синтез речи - немножко попроще задача по сравнению с распознаванием речи, однако и там есть свои проблемы. То есть если создать системы, которые уже были созданы 20-30 лет назад, которые говорили, как робот, и, когда человек слушает такой голос, возникает некоторый дискомфорт, что по истечению некоторого времени человек просто перестает воспринимать или устает слушать такую речь. Поэтому сейчас технология синтеза речи в основном направлена на то, чтобы обеспечить естественное звучание, именно так, как говорит человек. Может быть, с некоторыми отклонениями, но чтобы это было естественно. А также существует задача внедрения вот этих систем синтеза речи в мобильные устройства, которые сейчас очень востребованы и практически каждый имеет мобильный телефон или наладонник.



Татьяна Валович: Какой язык, как вы считаете, труднее синтезировать. Если возьмем русский и английский… Говорилось о том, что в Соединенных Штатах Америки это уже решено. Очень сегодня интересная была информация как раз в наших "Новостях науки", что американский изобретатель Рэй Курцвайл при поддержке Американской национальной федерации слепых создал устройство, которое читает для слепого человека любые тексты. Это устройство состоит из цифровой камеры, соединенной с карманным компьютером, на котором установлена программа для распознавания текста и потом воспроизводится аудио.



Андрей Ронжин: Я думаю, что любой язык имеет свои сложности и поэтому сказать сразу, что этот язык проще обработать и реализовать, а другой сложнее, нельзя. Вы еще заметили, что система, которую вы упомянули, использует не только синтез речи, но и распознавание текста. Сейчас я хотел бы еще заметить, что решение проблемы взаимодействия человека с компьютером несколько расширилось. Теперь занимаются не только обработкой речи, но и других естественных модальностей, то есть и движение головы, губ, жесты, мимика и другие. То есть для того, чтобы использовать все возможности человека, чтобы создать естественное взаимодействие, естественную коммуникацию. И в нашем институте как раз создается система для инвалидов, которая направлена на то, чтобы люди, у которых есть некоторые ограничения или возможности взаимодействия человека с компьютером с помощью рук, то есть какие-то были проведены операции, нет пальцев или рук, он может управлять компьютером с помощью движения головы и некоторых голосовых команд.



Татьяна Валович: Эти разработки инициированы или финансируются Министерством здравоохранения или это ваша личная задача, которую вы перед собой поставили?



Андрей Ронжин: С 2003 года пошел проект Европейской комиссии, и мы в нем участвуем, в рамках этого проекта создали вот эту систему. Нашей разработкой интересуется также институт здравоохранения в России. Мы работаем также с отдельными инвалидами, помогаем им обеспечивать такое взаимодействие.



Татьяна Валович: Вы бы могли описать ту технику, которая сейчас использует системы распознавания и синтеза речи в России, где она применяются? На сегодняшний день уже какие-то разработки введены?



Андрей Ронжин: Распознавание речи еще, может быть, не так много где используется. Есть только такая разработанная компанией Philips модель программного обеспечения, которая работает с русской речью в телекоммуникационных приложениях. Но пока, к сожалению, может быть, недостаточно развит рынок и не так пока еще востребованы российские технологии, а потом эта система недостаточно еще настроена на русский язык и поэтому не дает достаточно хороших результатов. Поэтому мы разрабатываем свою технологию и в рамках инновационного проекта, который пошел с начала этого года, совместно с компанией Evoice внедряем свою технологию и начинаем записывать свои речевые базы данных.



Слушатель: Вы помните программу, с которой все начиналось, называлась, по-моему, "Голосовой ключ", это самая первая русская программа. Еще американцы занимались, которые учили компьютер говорить и понимать. Но потом как-то все это благополучно заглохло. Это было 40 лет назад минимум. Я думаю, что сейчас компьютер нужно учить, наверное, на сленге таком, где можно было бы понять, что такое "стремно", "кинуть", "мухи, котлеты отдельно", "мочить" и прочее. Это поэзия целая сейчас. Конечно, если бы не было таких программ, разве бы мы могли три дня назад послушать речь Березовского и Тимошенко. Наверняка это не обошлось без системы "эшелон", которая здорово может выявлять все и прослушивать, и делать. А что вы можете сказать - первоначально для спецслужб вы стараетесь или такие прикладные дела будут?



Татьяна Валович: Два вопроса прозвучало, это увеличение распознавания слитной речи и увеличение словаря, который мог бы распознать компьютер, и над чем работает конкретно ваша группа.



Андрей Ронжин: Хорошо заметил слушатель, расширение словаря - это очень важно. Как раз сейчас, решив вопрос слитной речи, многие институты переходят к распознаванию спонтанной речи, где возникают слова, которые выходят из обычного лексикона и с ними не то что надо бороться, их надо учитывать. Поэтому тут, может быть, производится распознавание ключевых слов, на которые стоит базировать при понимании всей фразы, которая была произнесена диктором.



Татьяна Валович: Но ведь, кроме распознавания каких-то ключевых слов, у каждого человека своя манера говорить, темп и ритм. Кроме того, даже русский язык если взять, сколько диалектов. Это тоже должно, наверное, учитываться?



Андрей Ронжин: Да.



Татьяна Валович: Насколько это трудно и как продвигается работа в этом направлении?



Андрей Ронжин: В рамках современных технологий для того, чтобы решить все эти проблемы, необходимо записать огромные речевые базы данных, которые будут покрывать многочисленные диалекты и не только диалекты, но и каналы, через которые записываются базы данных. То есть человек может говорить на вокзале, где очень шумно, накладываются посторонние разговоры, то есть все это надо записывать, и, расширяя вот эти базы данных, мы сможем покрыть как вариативность в дикторах, так и в окружающей обстановке.



Слушатель: Георгий, Санкт-Петербург. 50 лет назад мой знакомый написал, например, такой стих... И я подумал, как же с техникой будет взаимодействовать такие строки: "Ласково сковала скал оскал вешняя вишневая заря, устланный устами стал отстал сонный сонм сомнений озаря. Зажужжала жизнь жуком всех жил, песню спеси, ереси сипя. Мир в бездонной луже лжи ожил, чтоб еще раз обмануть себя".



Татьяна Валович: Да, вот это пример сложности русского языка, образования фонем различных окончаний и падежных. Как решаете эту проблему вы?



Андрей Ронжин: Да, очень хороший пример. Профессор Юрий Александрович Косарев в свое время тоже любил приводить стихи, которые были построены только либо из существительных, либо глаголов, которые тоже, естественно, никогда не распознаются и не будут использоваться во взаимодействии человека с компьютером. Или только для стенографирования. Поскольку речевые технологии прежде всего ориентированы под конкретную прикладную задачу - либо это запрос какой-то информации, либо, как я уже сказал, стенографирование текста.



Татьяна Валович: А сейчас стенографирование текста уже существует в виде каких-то разработанных программ, чтобы не человек сидел и расшифровывал какое-то большое длинное заседание, а сделала это машина?



Андрей Ронжин: Для английского языка существует система Via Scribe , Via Voice , Dragon Dictation, которые в принципе работают достаточно хорошо, если их обучить.



Татьяна Валович: А для русского языка?



Андрей Ронжин: Для русского языка существует аналог Dragon D ictation, разработанный компанией Voice Log , так называемый "Дракон", вернее "Горыныч", который в принципе работает, но необходимо провести долгую процедуру предварительного обучения на свой голос, и, по оценкам пользователей, он выдает примерно 70-80% точности.



Татьяна Валович: То есть это только на определенно настроенный голос? А если на каком-то заседании? Там же некоторые докладчики совершенно различно говорят. Такого еще нет?



Андрей Ронжин: Такого, к сожалению, пока еще нет. Для этого нужно использовать диктора независимой системы, для которого необходимо создать, как я уже говорил, большие корпуса русской речи.



Татьяна Валович: Вы начали говорить о том, что одна из ваших задача - это как раз работа с людьми с ограниченными возможностями. Наш слушатель спрашивал, есть ли заказы от правоохранительных структур, с чем они связаны и выполняете ли вы такие задачи?



Андрей Ронжин: Мы со спецслужбами не работаем. Это расширяет наши возможности, мы не ограничены какими-то спецзаказами, а работаем над теми темами, которые мы ведем в рамках своих иностранных и российских проектов. Может быть, это более фундаментальные задачи, нежели, как уже сказала Юлия Хитрова из Центра речевых технологий, для верификации дикторов, определения состояния человека. Хотя этими задачами тоже занимаемся, но в рамках своих проектов, решая какие-то фундаментальные базовые научные задачи.



Татьяна Валович: Когда можно ожидать, что такие устройства, комплексы для людей с ограниченными возможностями будут серийно производиться? И насколько это может быть сложно, должна ли это быть какая-то государственная поддержка при производстве таких комплексов?



Андрей Ронжин: Я думаю, что государственная поддержка обязательно должна быть, поскольку, к сожалению, сфера обслуживания инвалидов не интересует коммерческие структуры, и они не готовы вкладывать туда деньги. Поэтому это, естественно, должны быть инвестиции государственные, для разработки, а главное, для внедрения вот этих технологий и устройств, и для обеспечения инвалидов нормальными возможностями, и для того, чтобы повысить их социальный уровень, социальный статус, обеспечить их такой же высокооплачиваемой работой, как и у других людей.



Татьяна Валович: А как дороги могут быть такие комплексы? Понятно, что чем больше их будут производить, тем стоимость их будет уменьшаться, то есть нужно наладить серийно производство. Но если подумать о том, что они выйдут, скажем, через два года в общее пользование?



Андрей Ронжин: По срокам я пока не скажу, а по цене... Мы сначала использовали для своих фундаментальных задач распознавание речи, используя аудио- и видеосигнал, то распознавание речи по аудиосигналу и чтение по губам, мы использовали действительно дорогую камеру, которая стоит порядка 2 тысяч евро. Для создания системы помощи инвалидам для управления компьютером мы специально взяли за основу самую дешевую камеру, которая стоит 50 евро, веб-камеру, которая включает в себя уже и микрофон, - это получается достаточно дешевая система.



Татьяна Валович: Ну, 50 евро - я думаю, это еще недостаточно дешево для наших людей, которые получают такую маленькую пенсию.



Андрей Ронжин: Да, вы правы, хотя из ассоциации "Интас" приехал представитель, "Интас" был спонсором нашей конференции, и он сказал, что...



Татьяна Валович: Это российская организация?



Андрей Ронжин: Это бельгийская организация. Так вот, он сказал, что подобная система, как у нас, которая тоже работает, у них ее стоимость превышает 3 тысячи евро.



Татьяна Валович: У нас есть еще вопрос от слушателя. Пожалуйста, вы в эфире.



Слушатель: Здравствуйте. Александр Добрый. Я интересуюсь, а если человеческим языком будет говорить попугай, вы сможете определить по его голосу человека, который научил его тем или иным словам?



Андрей Ронжин: Интересный вопрос. Я думаю, что даже через микрофон когда вы записываете и прослушиваете свою речь, вы ее тоже немножко не узнаете, потому что голос трансформируется в процессе преобразований по каналу. То же самое произойдет, естественно, и при обучении попугая. Хотя, возможно, останутся какие-то основные характеристики, которые будет повторять попугай, как фонетические отклонения, естественно, лексические, а акустические характеристики голоса вряд ли сохранятся. Хотя я не биолог.



Татьяна Валович: У нас есть еще вопрос от слушателя. Пожалуйста, вы в эфире.



Слушатель: Здравствуйте. Скажите, пожалуйста, как у нас можно решить вопрос о том, чтобы все-таки начать различать такие слова, как "право" и "право" - в одном случае мы подразумеваем свод законов или основной естественный закон, а в другом случае это права. Мало того, сейчас уже дошло до того, что чуть ли не соединяют эти два понятия третьим понятием, все это проходит под одной, так сказать, короной. Не считаете ли вы, что нужно в написании различать эти слова - право как свобод законов надо писать с большой буквы, а право как права с маленькой?



Татьяна Валович: Да, но в устной речи ни маленькая, ни большая буквы не будут учитываться. Тут, наверное, должен анализироваться контекст, в котором прозвучит это слово.



Андрей Ронжин: Вы абсолютно правы.



Татьяна Валович: В русском языке достаточно много таких слов, которые одинаково звучат, но обозначают совершенно разное. Иногда, когда человек волнуется или торопится, он смотри на предмет, например, это дверь, и говорит "окно". Ну, вот такие вот психологические моменты - насколько они учитываются и как анализируются? Может быть, это действительно должен быть какой-то симбиоз ученых - психолог, биолог... И как вы используете профессии таких ученых в своей работе, есть ли у вас в группе такие люди, например, биологи или психологи?



Андрей Ронжин: Это вы хорошо заметили, действительно, человек - это целостная система, и нельзя рассматривать или изучать его односторонне, например, только речь - изучаем, как о говорит, как выражает свои мысли. Необходимо рассматривать по всех сторон. Поэтому есть такое направление - развитие многомодульных интерфейсов. Многомодульные системы включают в себя различные устройства, которые воспринимают и создают сигналы аудио, видео, сенсорную информацию и обрабатывают их. Для того чтобы определить, как вы уже сказали, что человек видит окно, а говорит на него "дверь" или наоборот, для этого необходимо поставить еще и камеры, чтобы они обращали внимание или смотрели, куда смотрит, куда показывает человек, куда направлены его глаза, куда направлены его руки, для того чтобы в комплексе оценить и поправить некоторые другие виды информации. Например, если он сказал "окно", а показал на дверь, то система оценила контекст, куда он торопился, зачем он идет, что он делал, с кем беседовал до этого, о чем беседовал, чтобы скорректировать эту информацию и поправить его, а в результате правильно понять его желание и выполнить определенные функции какие-то.



Татьяна Валович: Но это тема будущего, наверное. У нас еще есть вопрос от слушателя. Пожалуйста.



Слушатель: Добрый день. Меня зовут Виктор, я звоню из Москвы. Скажите, пожалуйста, а какие системы, какие инструменты вы применяете для распознания диалектов русского языка? И особенно это касается северного и южного наречий, которые даже по мелодике отличаются от основных диалектов. Спасибо.



Андрей Ронжин: Хороший вопрос. К сожалению, наша группа диалектами не занимается. Это интересная задача, которая плотно исследуется Государственным университетом, на кафедре фонетики профессором Павлом Скрелиным. У них были и идут сейчас проекты...



Татьяна Валович: Они участвовали в вашей конференции, представляли свои разработки?



Андрей Ронжин: Да, конечно, они представляли очень интересные системы по синтезу русской речи, которые уже даже где-то применяются. И у них были проекты не только на создание этой системы, но и созданиях крупных речевых баз данных. Они ездили по различным регионам России и создали достаточно представительный корпус русской речи.



Татьяна Валович: Насколько такие технологии синтеза и распознавания речи могут использоваться для обучения тех детей, например, с ограниченными какими-то возможностями, для тех, кто слабо видит или вообще не видит, у кого проблема - церебральный паралич? Работаете ли вы над этим, есть ли какие-то заказы в этой области?



Андрей Ронжин: Пока заказов, к сожалению, нет. Хотя мы сейчас совместно с Университетом Дрездена, с чешским Университетом в Пльзене, с Томским университетом подали заявку на проект "Интас", в рамках которых будем создавать такую гибкую интерактивную систему для помощи инвалидам с различными ограничениями. Как сказал профессор Бондаренко, он занимается восстановлением речи людей, у которых были проведены онкологические операции на голосовом тракте. Мы будем применять свою систему, которая направлена на то, чтобы обеспечить человека без рук возможностью управлять компьютером. Система аудио-видеосинтеза, так называемая "говорящая голова", разработанная чешским университетом, будет использоваться, и другие технологии.



Татьяна Валович: А как, например, детям это могло бы помогать уже в недалеком будущем?



Андрей Ронжин: Я думаю, что прежде всего эти системы должны быть направлены на детей, для того чтобы обеспечить им будущее, чтобы они стали полноценными участниками нашей жизни.



Татьяна Валович: А вот такие устройства для людей с церебральным параличом, у них иногда нарушены, в том числе, голосовые функции, то есть возможно ли улучшить их общение, чтобы он говорил в какое-то устройство, а оно бы переводило его речь в более понятную для других, - такие разработки имеются или нет?



Андрей Ронжин: Существует система, например, для взаимодействия глухонемых, которая распознает знаковую систему общения. Например, человек, который не может говорить. показывает знаками, система воспринимает эти знаки и преобразует их с помощью систем синтеза речи в обычную аудиоречь.



Татьяна Валович: Насколько эти устройства портативны, их можно носить с собой или только можно стационарно использовать?



Андрей Ронжин: Для русского языка пока таких систем я не видел. Единственное, существует компьютерная модель. Насколько я знаю, в Государственном Университете аэрокосмического приборостроения есть эта модель, и он работает с лабораториями нашего института.



Татьяна Валович: Я знаю, что такую систему распознавания команд и речи использовал Ватикан. Когда было празднование 2000-летия Христа, паломник, звонивший в кол-центр, излагал свой вопрос, система автоматического распознавания речи выслушивала его, и если система определяла, что, например, вопрос задан по часто встречающейся теме, включался какой-то записанный предварительно текст, а если эта система понимала, что не сможет дать какую-то информацию звонящему, уже переключала тогда на оператора, человека. В России такие вот кол-центры существуют? Я знаю, например, что если позвонить в банковскую систему, есть некоторые такие системы, можно узнать по телефону о своем текущем счете, и там, наверное, тоже используются такие системы?



Андрей Ронжин: Да, это хорошая идея, и мы тоже собираемся ее использовать. В России пока таких технологий, насколько я знаю, нет. Вернее они есть, но они пока еще не реализованы. В США такие системы существовали уже 20 лет назад, как раз к нам на конференцию приезжал профессор Лоуренс Робинер, который был пионером в распознавании речи, и технологии, методы, которые он разработал, сейчас используются по всему миру. И 20 лет назад он внедрил свою систему в компанию NTNT , где они автоматизировали обработку телефонных звонков, что дало экономию в миллиарды долларов за счет замены операторов-людей автоматическими системами, которые классифицировали входящие звонки по темам и направляли уже на определенного операторы, который знал, на что отвечать, и были какие-то заготовки, которые читались автоматически.



Татьяна Валович: А российский бизнес, может быть, не знает о таких возможностях? Иначе бы как-то более заинтересованно относились, финансировали те же разработки, это же приносит действительно экономию средств. Таких моментов, контактов не было?



Андрей Ронжин: Это не только экономия средств, а это огромная прибыль. Все речевые технологии - это огромная прибыль. Но, к сожалению, пока сейчас наши коммерческие структуры и государственные структуры, может быть, опасаются внедрения этих технологий, поскольку существуют пока еще большие риски.



Татьяна Валович: А с чем связанные? С тем, что система выйдет из строя или с какими-то другими моментами?



Андрей Ронжин: Это связано со сложностью, во-первых, русского языка, с тем, что системы разрабатываются больше 50 лет, и результаты только лет 5-10 назад начали появляться.



Татьяна Валович: Как вы считаете, в ближайшем будущем насколько в России можно ожидать развития речевых технологий и что нужно для этого?



Андрей Ронжин: Тяжело давать такие оценки, поскольку это фундаментальная задача, и как только начинаешь ее решать, сталкиваешься с проблемами, о которых в начале этого проекта или в начале деятельности ты даже не думал. Мы идем шаг за шагом, шли от распознавания изолированных слов, перешли к слитной речи, теперь смотрим, как решать проблемы спонтанной речи, перешли также к биометрическим проблемам, как можно использовать речь человека, его эмоции, мимику, для того чтобы оценить его физиологическое, психологическое состояние, текущее состояние. Мы конкретно занимаемся пока изучением речи.



Татьяна Валович: А финансируется ваша работа за счет чего?



Андрей Ронжин: Я бы сказал, что мы используем не только государственное финансирование, но и проекты, международные и российские, которые позволяют нам покупать достаточно хорошее оборудование, чтобы проводить эти дорогостоящие исследования.



Татьяна Валович: Наверное, как вся фундаментальная наука в России сейчас, безусловно, если бы была большая поддержка от государства, а не только вы выигрывали гранты, было бы только лучше.



Андрей Ронжин: Почему бы и нет...



Татьяна Валович: Спасибо большое.


XS
SM
MD
LG