Реферат: Машины, которые говорят и слушают

УДК 621

УДК 621.391

Рассмотрены современныэ тенденции развития систем автоматического распознавания и синтеза речевых сигналов. Освещены проблемы построения алгоритмов распознавания в неадаптивных системах речевого управления. Описаны эксперименты по созданию систем автоматического речевого запроса экономической информации с элементами автоматического обучения.

Книга рассчитана на научных работников, инженеров и студентов, специализирующихся по технической кибернетике и теории информации.

Работу рецензировали и рекомендовали к изданию:

академик АН СССР А.А.Дородницын кандидат физико-математических наук М.Н.Маричук© Издательство «Штиинца»,1985 г.

О I5Q3000000 — 62 39-85 M755(I2) — 85

ВВЕДЕНИЕ

Проблема реализации речевого диалога человека и технических средств — актуальная задача современной кибернетики. В настоящее время пользователями вычислительных машин и средств, оснащенных вычислительными машинами, становятся люди, не являющиеся специалистами в области программирования. Особенно актуальной стала задача общения человека и ЭВМ с появлением микропроцессоров и больших интегральных схем. Новая технология оказала прогрессивное влияние на психологию как разработчиков современных многопроцессорных ЭВМ.так и неспециалистов-пользователей, не подготовленных к тому, чтобы пользоваться сложной функциональной клавиатурой, языком программирования, комплексными средствами управления техникой. Проблема речевого управления возникла, кроме того, в связи с тем, что в некоторых областях применения речь стада единственно возможным средством оощения с техникой (в условиях перегрузок, темноты или резкого изменения освещенности, при занятости рук, чрезвычайной сосредоточенности внимания на объекте, который не позволяет отвлечься ни на секунду, и т.д.).

Массовое внедрение различных бытовых технических средств, содержащих микропроцессоры и другие большие интегральные схемы, в частности, сложных микрокалькуляторов, пег-зональных ЭВМ, также требует упрощения, «демократизации» систем управления такими средствами. Мы должны пользоваться новой сложной техникой так же, как пользуемсячасами, радиоприемником, стиральной машиной.Приближается время, когда будут созданы «механические слуги» человека — роботы, помогающие в быту, выполняющие работу по уборке помещения, оказывающие помощь в сельскохозяйственных и строительных работах и т.д. Безусловно, человек будет заинтересован в голосовом управлении сложной бытовой техникой и в конечном счете такими роботами.

Ближайшие перспективы развития вычислительной техники, создание высокопроизводительных ЭВМ пятого поколения, надеденных способностью анализировать зрительные и звуковые образы, также

3

требуют того, чтобы задачи автоматического распознавания и синтеза речевых сигналов не оставались без внимания. Невозможно предположить, чтобы вычислительные системы обладали производительностью в десятки и сотни миллионов операций в секунду и в качестве вводных устройств использовали традиционную клавиатуру дисплея, перфоленты или перфокарты.

В первой главе рассматривается современное состояние автоматического распознавания и синтеза речевых сигналов (по публикациям до 1981 г. включительно). Отмечается возрастающий поток публикаций по этим проблемам, причем многие работы посвящены вопросам практического построения систем распознавания и синтеза речи на специализированных микроЭВМ. В настоящей монографии не нашли отражение работы, опубликованные после 1981 г., так как материалы к публикации готовились в основном до бтого времени. (южно лишь отметить, что за 1982 и 1983 гг. практическое направление работ в области автоматического распознавания и синтеза речи интенсифицировалось. В нашей стране появились первые промышленные системы автоматического ввода/вывода речевой информации — «ИКАР», разработанная в НИИСчетмаше (г.Москва), СРД-1, изготовленная в ОКБ Института кибернетики АН УССР им. В.М.Глушко-ва, и Марс, созданная Минским отделением ЦНИИС. Эти системы, широко демонстрировавшиеся на ВДНХ и других промышленных выставках, обладают примерно сходными техническими характеристиками -они обучаются, настраиваются на голос конкретного пользователя и словарь, достигающий йОО слов, и обеспечивают точность распознавания около 95& и реальное время распознавания. В качестве метода, обеспечивающего нелинейное сравнение входных реализации и эталонов, используется динамическое программирование. Большие успехи в области создания систем такого рода достигнуты также в QUA и Японии. В США с 1982 г. начал выходить специальный журнал Speech Technology (Речевая технология), в котором описываются области применения промыиленных систем распознавания и синтеза речи, их тестирование, технические характеристики и технологические особенности.

В монографии основное внимание уделяется описанию систем распознавания речи, работающих без предварительной настройки на диктора. Авторы в течение ряда лет совместно работали над этой проблемой в Вычислительном центре Академии наук СССР.Идеология неадаптивных систем распознавания сложилась еще в 60-е гг.-в совместных разработках Вычислительного центра и Института проблем передачи информации АН СССР. Но основные результаты, описанные в книге, получены авторами в конце 70-х — начале 80-х гг.

Глава 1

СОВРЕМЕННЫЕ ТЕНДЕНЦИИ РАЗВИТИЯ ПРОБЛЕМЫ РЕЧЕВОГО ВЗАИМОДЕЙСТВИЯ «ЧЕЛС ВЕК — ЭВМ»

§ I.I. Некоторые аспекты исследования речевых сигналов на современном этапе

В 70-х гг. повысился интерес к проблемам исследования речи. Это связано с возросшими успехами дискретной обработки сигналов на современной микроэлектронной технике и широким распространением микроЭВМ и мультимикроцессорньк систем, появление которых означало революцию в информатике. Научные достижения в области автоматического распознавания и синтеза речи поставили вопрос о практическом общении человека с миром мощных по своей производительности и возможностям микроЭВМна языке, близком к естественному. Сложнейшая техника приблизилась к пользователю-неспециалисту, и пользователь «потребовал», чтобы общение о ЭВМ (в частности, с информационными и управляющими ЭВМ) производилось на более привычном ему естественном языке.

В связи с этим привлекли внимание работы по созданию первых промышленных устройств ограниченного речевого ввода и вывода информации, а также достаточно широко разрекламированных систем автоматического понимания естественной, слитной речи, над которыми работали в ОДА в течение I972-I976 гг. по проекту айра.

Следует отметить, что автоматическое распознавание и синтез речи — не единственное в речевых исследованиях, что привлекает внимание специалистов и возможных потребителей.

Наряду с автоматическим распознаванием смысла сообщения и синтезом речи (проблемами, которым в основном и посвящена настоящая монография), исследователи речевых сигналов успешно решают задачи: автоматического распознавания личности говорящего (т.е. решают задачу, кто это сказал), автоматической верификации говорящего (подтверждение, тот ли конкретный человек произнес эту фразу), оценки по голосу эмоционального состояния оператора, распознавания речи, произносимой в другой воздушной среде (гелиевая речь), определения по речевому сигналу патологии органов речеобразования, разработки более совершенных методов преподавания иностранных языков (выработка правильного акцента и интонации по картине «эталонных» параметров речевого сигнала ), помощи лицам

с дефектами органов слуха и речеобразования, очистки и анализа затупленной речи, создания систем узкополосной помехоустойчивой связи, а также ряд других задач. Рассмотрение всех этих проблем не входило в планы авторов, которые ограничиваются здесь простым их перечислением.

В данной главе кратко рассматриваются основные публикации по проблемам автоматического распознавания и синтеза речи, появившиеся в I976-I98I гг. Сведения о более ранних работах в этой области можно получить из [58,79,8б].

В СЮ9] приводятся основные лаборатории США, Великобритании, Франции и Западной Германии, тематика которых связана с автоматическим распознаванием и синтезом речи. В [127] сообщается, что проблема построения машин, способных воспринимать речь человека (желательно с использованием пра' л естественного языка), остается главным направлением речевых исследований, одной из ключевых проблем кибернетики. В [144] отмечается возрастающий интерес к этой проблеме, связанный с увеличением спросана малые устройства распознавания слов и появлением новых компаний, активно участвующих в создании промышленных систем автоматического распознавания речи на новой технологической базе.

В нашей стране наблюдается широкий интерес к проблеме исследования речевых сигналов. Регулярно проводятся всесоюзные школы-семинары по проблеме автоматического распознавания слуховых образов (APGO). В каждой союзной республике существуют лаборатории или группы, решающие эти задачи.

Стало традиционным классифицировать системы автоматического распознавания речи на адаптивные, работающие с подстройкой под диктора и словарь, и неадаптивные, обеспечивающие работу с произвольным диктором-носителем нормы произношения данного языка. К практическим системам первого типа относятся vip- юо, WRS и ИКАР, СРД-1, МАРС, к неадаптивным — экспериментальные системы лаборатории Bell, ВЦ и ИППИ АН СССР, устройство фирмы Dialog Systems. Следует отметить, что системы автоматического распознавания речи пока не получили широкого распространения, хотя и выпускаются с 1973 г. серийно.

Более доведенными до уровня коммерческих образцов являются системы автоматического речевого ответа, т.е. системы, основанные на автоматическом синтезе речи. Промышленность США и Японии выпускает большими партиями синтезаторы речи, ориэнтированные на самое разнообразное применение, — от детских игрушек, оснащенных голосовым выводом, до мощных информационных систем, отвечающих голосом по речевому запросу пользователя. В основе современных

б

коммерческих систем речевого ответа лежат три основных способа синтеза — непосредственное кодирование речевой волны (дискретизация и сжатие), формантный синтез и синтез, основанный на линейном предсказании [5]. (Подробное описание достижений науки и промышленности в области автоматического синтеза речи дано

в § 1.4).

В пятой главе подробно рассматриваются особенности разработанной авторами экспериментальной запросной системы речевого ввода, работающей с проблемно-ориентированным языком, словарный запас которого составляет 120 слов. Система базируется на аппаратурно-программном методе распознавания, использующем информативные признаки речевых отрезков ^23,13,9?].

§ I.<i. Современные тенденции построения практических систем распознавания речи

В середине 70~х гг. получили распространение системы распознавания речи, предназначенные для промышленного использования. Важнейшие требования к таким системам — высокая точность и реальное время распознавания высказывания. Постепенно стал накапливаться опыт эксплуатации подобных систем, который определилих дальнейшее развитие. Первые практические системы автоматического речевого ввода информации обладали рядом положительных свойств, необходимых для пользователей. Мартин [&8] отмечает, что к таким свойствам можно отнести мобильность и возможность совмещения работ оператора, гибкость словаря, 100% точность распознавания (при использовании обратной связи), стабильность эталонных данных и уверенность оператора, контактирующего с системой, обладающей высокой точностью распознавания. Главными недостатками первых систем можно считать длительную подстройку под диктора и словарь, малый объем словаря, отсутствие помехозащищенности от слов, не входящих в рабочий словарь, проблемы фонового шума и шумов дыхания, высокую стоимость и т.д.

Первым широко внедренным устройством систем автоматического речевого ввода данных можно считать vip-ioo, подробно описанное в [58,134].

В [13б] отмечается использование VXP-100 в конфигурации Threshold -500, которая дает возможность вводить информацию голосом в ЭВМ одновременно трем операторам. Указывается, что средняя точность распознавания слов в этихсистемах колеблется от 96,5 (для словаря из 35 слов и высокого уровня шумов) до 99,5%

(для словаря из 15 слов и тихого помещения). В [136] рассматривается использование vip — 100 для речевого ввода информации в ЭВМ станков с программным управлением. Отмечается, что для этих целей разработаны три специальные систейн: vw — 50, vno- 100 и virc — 200 с использованием соответственно 31 слова и слитного словосочетания, 4Ь и 65 слов.

Системы VHC -200 применяются для управления четырехшиин-дельными сверлильными станками и лазерами, iопользующимися для обработки полупроводников и сверхтвердых материалов, а также для управления токарными станками. Кроме того, эта система применяется для взаимодействуя с системой искусственного интеллекта и управления голосом.

Данная система используется для технической диагностики компрессоров холодильных установок и при распределении посылок.про-ходящих по конвейеру [П9].

й[П7] описывается использование одной из систем фирмы Threshold Technology для автоматического ввода голосом по телефону гидрографических данных исследования морских акваторий.

Еще одной американской промышленной системой автоматического распознавания изолированных слов является v/RS [l40]. Система предназначена для практического использования в армии и обеспечивает прямую двустороннюю связь между персоналом на передней линии фронта и армейскими информационными системами, использующими автоматическое распознавание слов, идентификацию диктора и его верификацию (подтверждение, тот ли человек разговаривает с системой).

Мини-ЭВМ этой армейской системы полностью обеспечивает автоматизированную обработку сигналов в реальном времени, трансляцию (т.е. автоматическое распознавание) сообщения и синтезированный речевой ответ на три сети связи одновременно для любых трех из 64 пользователей. Рабочий словарь системы 250 слов. Полевой оператор-разведчик оснащ'ен переносным блоком записи донесений для точной записи тактических данных и возможного ввода их по радио или телефонным линиям в армейскую тактическую информационную систему. Для удаленного оператора используются передатчики с частотной модуляцией. Система распознавания слов таз, воспринимая дискретные речевые сообщения (фразы, произносимые в жестком формате пословно), «подсказывает» оператору на каждом шаге, какого рода информацию ждет она от него далее, предварительно подтвердив правильную запись предыцущего донесения.

Жесткий формат фраз определяется специализированным языком точного описания тактических условий в поле деятельности оператора и управления артиллерийским огнем.

Для голосового ответа в «'/КЗ используется программно-управляемый звуковой синтезатор фирмы Vocal Interf;ice Division, который позволяет получать цепочки фонем и фонемоподобных звуков в соответствии со смыслом речевого ответа; при этом обеспечивается необходимая модуляция основного тона для большей естественности звучания. Если какой-либо оператор хочет ввести в армейскую тактическую информационную систему донесение после того, как wrs обучалась его речевьм характеристикам, он должен обнаружить канал связи, а затем ввести шесть слов, представляющих' шифр (код) используемой сети, код пользователя и слова завершения.

Хотя система распознавания способна работать автоматически, на стороне v/RS всегда присутствует оператор. Он следит за экраном буквенно-цифрового дисплея, где отражаются донесения, поступающие с трех линий связи. По мере распознавания донесений появляется их буквенный текст. Если донесения полностью удовлетворяют оператора, он передает их для исполнения (и для получения «твердой копии» на бумаге), нажимая на пульте соответствующую клавишу. Оператор может с пульта отредактировать любое. донесение, прежде чем выдать его для исполнения. Оператор может также с пульта управления в тобой момент связаться по радио или телефонному каналу с каждым разведчиком-пользователем (или со всеми сразу). Если при распознавании донесения, поступающего от пользователя, возникают трудности, то оператор должен сделать вое. чтобы донесение было принято. Для этого он может, например, переучить систему на голос этого пользователя.

Автономный блок системы, предназначенный для связи с пользователями, возбуждается без вмешательства оператора при одном из трех «условий»:

а) распознано слово «оператор»;

б) последовательно прошло неверное распознание двух слов подряд;

в) во время трансляции шифра диктор идентифицирован как злоумышленник.

Точность распознавания слов превышает 95% при передаче речи по несекретной радиолинии с отношением сигнад/шум, равным 10 дБ. При использовании более совершенной радиолинии точность, трансляции донесения достигала 9'?%.

Зак.480

В 1977г. Оыло выпущено устройство Heuristics $299 Speuchlab, требующее ддя реализации системы распознавания дополнительной ЭВМ. Точность распознавания слов в системах, использующих это устройство, была относительно низкой (около 90%), однако из-за невысокой стоимости оно оказалось в настоящее время наиболее распространенным. В 19УО г. этой же фирмой была выпущена система 7000, соединенная со стандартными видеотерминальными RS -232 [903 • Система, выпускаемая в автономном корпусе, включает цифровой спектроанализатор и блок распознавания. Она может быть обучена распознаванию 64 слов или фраз, длительность аву-чания каждой из которых до 3 с.

Система 7000 дает возможность вводить информацию голосом в ЭВМ, не набирая ее на клавиатуре видеотерминала, однако позволяет также пользоваться клавиатурой (по очереди или одновременно).

В [69J сообщается, что фирмой Interstate Electronics Inc. выпускается сходный по техническим характеристикам с системой 7000 одноплатный модуль распознавания речи VRK — Voice recognition module, реализованный на базе микропроцессора и представляющий «интеллектуальным» терминалам и небольшим вычислительным системам средства автоматического речевого ввода. Отмечается, что 'это устройство обеспечивает распознавания более 99% при вариантах с объемом словаря в 40, 70 или 100 слов. На входе устройства используется 16-канальный аналоговый спектроанализатор, информация с которого далее преобразуется в цифровую форму и уплотняется до размера эталонов, хранящихся в памяти van.В настоящее время фирма выпускает одноплатное устройство распознавания слов vrt-зоо, которое полностью позволяет дублировать клавишную систему управления видеоматериалом.

В [45J рассматриваются вопросы использования устройств автоматического распознавания и синтеза речи в системах военного назначения. Указывается, что в настоящее время автоматический анализ и синтез речи испытывается в тренажерах для подготовки специалистов (например, летчиков или диспетчеров управления воздушным движением), а также в устройствах ддя автоматизации ввода данных в ЭВМ при дешифрации аэрофотоснимков в процессе составления карт местности. Предполагается, что в перспективе устройства распознавания речи будут использоваться для ввода команд в систему оружия или в систему управления полетом.О необходимости заполнить пробел междуотносительно простыми,, настраивающимися на диктора и словарь, промышленными устройствами автоматического распознавания речи и громоздкими экспериментальными сис-

10

темами понимания речи, основанными на моделях естественных языков, Ли и Шоуп писали еще в [ 144].

Одной из самых совершенных коммерческих систем автоматического распознавания речи является система распознавания изолированных слов и слитной речи CSRS японской фирмы NEC [47]. Технологической базой этой системы служит микропроцессорная техника. (В системе используются пять микропроцессоров.) CSRS обеспечивает надежное автоматическое распознавание в действительно шумных средах ^до 90 дБ) с 0,2% ошибок и 0,7^, отказов на материале 120 слов. Система csrs, как и vip -100 и wrs, является адаптивной, настраиваемой на диктора и словарь. При распознавании слитно произносимых словосочетаний (до пяти слов одновре-* менно) система использует методику распознавания, основанную на так называемом двухступенчатом согласовании эталонных реализации и входной последовательности словосочетаний с использованием аи-г 'итмов динамического программирования. Блок автоматического распознавания включает цифровой анализатор спектра, преобразующий входной сигнал, который поступает с АЦП в 46-мерные векторы через каждые 18 мс, память эталонных реализации, позволяющих хранить до 120 эталонов слов, процессор динамического программирования, представляющий собой мультимикропроцессорную ЭВМ, и интерфейсную микроЭВМ, обеспечивающую управление всей системой.gsrs осуществляет распознавание практически в реальном масштабе времени. Систему можно приспособить, несколько изменив программу динамического согласования эталонов и выходного высказывания, для распознавания 1000 слов, произносимых изолированно.

На выставке в Москве (декабрь 1976 г.) демонстрировалась система gsrs, позволяющая подключать к одному блоку двух пользователей, работающих одновременно в режиме диалога с csrs [29]» За счет более совершенного распознавания система обеспечивает более простое обучение, допуская одно- или двукратное произнесение каждого слова.

В [16] рассматривается отечественная система, предназначенная для распознавания набора слов, число которых около 400.Сяо-варь представлен в памяти фонемными кодами, что позволяет после этапа подстройки системы -юд диктора (сводящейся к однократному произнесению специального словаря, содержащего фонемы русского языка в различных словосочетаниях) заменять, корректировать и пополнять словарь без участия диктора. В системе используется'пять параметров речевого сигнала, которые служат цля распознавания слов — логарифм полной энергии сигнала и логарифмы отношения • Полной энергии сигнала к энергиям сигнала в четырех полосах.

II

Из-за использования относительно медленной машины и чисто программной реализации алгоритмов анализа сигнала время обработки около Iмин на слово, время принятия решения ~ W/8 с, где И — объем словаря.

В более поздней работе этого же коллектива рассматриваются системы признаков, основанные на модеси линейного предсказания С 17] и психоакустическом эффекте маскировки более схабых составляющих речевого сигнала более сильными.При использовании данного подхода точность распознавания изолированных слов для одного диктора составила при лексиконе из 100 слов — 97%, а при лексиконе из 300 первых слов русского частотного словаря — 94^.

В Институте кибернетики АН УССР в 1977 г. разработана адаптивная система распознавания слов, работающая в реальном масштабе времени [1б]. Система создана на основе ЭВМ БЭСМ-6, но может быть реализована на других ЭВМ или в специализированном устройстве на микропроцессорах. В процессе предварительной обработки речевого сигнала вычисляется последовательность 48-разрядных двоичных кодов, каждый из которых определяет знак производной по частоте амплитудного спектра речи, вычисленныхна участках в 15 мс. Обработка введенного речевого сигнала длительностью I с происходит за 0,3 с, время распознавания одного слова для словаря из 100 слов — не более I с. Точность распознавания словаря из 500 слов — 98%. Методика принятия решения в системе более подробно рассмотрена в С20].

В [21] описывается разработанная в ИК АН УССР система распознавания речи, настроенная на голос нескольких дикторов и обеспечивающая надежность распознавания изолированных слов около 98^ для словаря из 500 слов.

Интересная адаптивная система распознавания изолированных слов, использующая параметры клиппироваяного речевого сигнала, разработана Н.П.Бусленко, В.В. Деевым и Г.Д.Фроловым [8].В этой системе для формирования эталонов и автоматического распознавания предложен оригинальный математический подход к анализу последовательности чисел, соответствующей интервалам между нулевыми перечислениями сигнала. Обобщенные эталоны формируются после нескольких for 2 до Ь) произнесений слова. При распознавании происходит сравнение поступившего на вход слова с этими эталонами. В системе реализован речевой ответ, также основанный на формировании клиппированного речевого сигнала. Ццеи, рассмотренные в [в], нашли свое дальнейшее развитие в системе, реализованной на мини-ЭВМ.

12

В ряде кибернетических систем массового пользования целесообразно использовать автоматический речевой ввод без предварительной настройки на голос оператора. В таких системах распознавание должно базироваться на универсальных фонологических правилах, а в дальнейшем — на использовании синтаксиса и семантики естественных языков. Другой путь построения неадаптивных систем распознавания речи — сбор эталонных реализации от большого (до 500) числа дикторов, кластеризация эталонов и использование того факта, что каждый новый диктор произносит слова так, как этр делал один из тех дикторов, который участвовал в обучении системы распознавания. В настоящее время не достигнуто высокой точности распознавания слов в неадаптивных системах (кроме системы Dialog Systems, где весьма небольшой словарь и используются эталоны, полученные от 500 дикторов). Однако исследования, проведенные в этой области, а также феномен человека, воспринимающего слитную речь произвольного диктора без предварительной настройки на его голос, доказывают, что технические средства, направленные на распознавание речи любого пользователя, несомненно, будут созданы.

Первой системой автоматического распознавания речи, выпускаемой нашей промышленностью, стала адаптивная микропроцессорная система распознавания изолированных слов, разработанная в НШЮчетмаше.Система содержит блок аналоговой обработки сигнала — предпроцессор (он включает микрофонный усилитель, 16-канальный спектроанализа-тор с рабочей полосой до Ь кГц, индикаторы уровня основного тона и огибающей, блоки клиппирования, наличия устной команды, вторичной обработки и управления), микропроцессор К580ИК80, специализированную подсистему для вычисления меры сходства между входной и эталонной реализациями слов, оперативно

еще рефераты
Еще работы по теории систем управления