Лекция: Многоуровневая система распознавания речи

 

Процесс общения с машиной долгое время оставался уделом специалистов и был недоступен для понимания простым смертным. Компьютерный интерфейс предусматривал посредника-программиста, что, в конечном счете, пользователей не очень-то устраивало. Применение ИИ для усиления коммуникативных способностей информационных систем привело к появлению систем с интеллектуальным интерфейсом. В современных компьютерных системах все большее внимание уделяют построению интерфейса естественным вводом-выводом информации (распознавание рукописного текста, речевой диалог).

Задачу распознавания речевой информации можно разделить на две большие задачи:

1. Непосредственное распознавание отдельных слов.

2. Распознавание смысловой нагрузки слов.

Непосредственное распознавание отдельных слов осложняется рядом факторов: различием языков, спецификой произношения, шумами, акцентами, ударениями и т.п.

В настоящее время можно выделить два основных направления при построении систем распознавания речи:

1. Эталонный – данный метод основан на сравнении некоторых характеристик речи (энергетических, спектральных и т.п.). В качестве эталонов в большинстве случаев используют целые слова. Этот метод удобен для использования в системах с ограниченным словарем (например, для ввода небольшого набора команд).

2. Фонемно-ориентированный метод. Основан на выделении фонем из потока речи. Фонема эта единица речи, подобно тому, как слово состоит из букв, так и речь состоит из фонем.

Сравнивая распознавание речевого потока методом распознавания целых слов и распознавание фонем можно сделать вывод: при небольшом количестве слов, используемых оператором, отражающих некоторый набор машинных команд, более высокую надежность и скорость можно ожидать от распознавания целых слов, но при увеличении словаря скорость резко падает.

Рассмотрим модель построения системы распознавания речи построенной на фонемно-ориентированном методе Рис.1.

Из списка фонем распознанных с определенной точностью, составляется шаблон, который передается на следующий уровень, где по нему происходит подбор наиболее подходящих слов. Подобранные слова (информация) передаются на более высокий уровень для дальнейшего анализа и на нижний для подстройки системы на конкретного пользователя. Достоинством этой системы является высокая адаптивность, дающая возможность динамической самоподстройки системы на оператора, и многоуровневая система проверок, повышающая точность работы.

Проанализируем возможные механизмы распознавания фонем. Звуки, участвующие в формировании речи, имеют две основные классификации: по артикуляционным признакам и по акустическим признакам.

Классификация звуков по артикулярным признакам является крайне важным при использовании методов генерации и распознавания речи с помощью генерирования носоглотки, но для решения задачи деления на фонемы более интересно рассмотрение акустических различий звуков. По акустическим признакам звуки подразделяются:

1. Тональные звуки – образуются голосом при почти полном отсутствии шумов, что обеспечивает хорошую слышимость звуков: гласные а, э, и, о, у, ы.

2. Сонорные (звучные) – чье качество определяется характером звучания голоса, который играет главную роль в их образовании, а шум участвует в минимальной степени: согласные м, м’, н, н’, л, л’, р, р’.

3. Шумные – их качество определяется характером шума:

· звонкие шумные длительные – в, в’, з, з’, ж, ж’;

· звонкие шумные мгновенные — б, б’, д, д’, г, г’;

· глухие шумные длительные – ф, ф’, с, с’, ш, ш’, х, х’;

· глухие шумные мгновенные – п, п’, т, т’, к, к’.

Заметим, что гласные и сонорные звуки состоят из участков затухания импульсов от основных (не обертонных) колебаний истинных голосовых связок. Для упрощения, будем называть эти участки доменами.

Использование домен при распознавании речи вполне очевидно. По сути, домен содержит в себе информацию достаточную для распознавания звука. Если взглянуть на образ протяженно произнесенной гласной (или сонорного звука), то за исключением небольших по длине участков в начале и конце образа звук состоит из доменов с высокой степенью идентичностью, даже для различных людей. Многие характеристики, а соответственно и общий вид домен во многом схожи, что придает особую универсальность методам распознавания при выделении и распознавании фонем через домены. Еще одним достоинством домен является относительная простота их выделения. По определению, домен начинается с максимального значения в определенном диапазоне, после которого идет затухающий по некоторому закону колебательный процесс. Перечислим дополнительные условия, которые можно использовать при расчленении речи на домены:

· стабильную (в диапазоне) длину домен;

· постоянную, с некоторой точностью, величину максимумов, по которым происходило вычисление домен.

Шумные длинные звуки будем рассматривать как один домен. Это позволит выделить корень этих звуков из общего потока и облегчит их анализ.

Анализ образов шумных мгновенных (взрывных) звуков показывает наличие участков по структуре схожих с определением для гласных и сонарных звуков понятием домен. Но наряду с совокупностью общих признаков прослеживается различие: для вышесказанных участков в шумных мгновенных звуках отсутствует та строгая идентичность домен между собой. Тем не менее, во всех мгновенных звуках присутствует момент, сильно облегчающий их выделение из речи – перед произнесением таких звуков наблюдается непродолжительная по меркам восприятия, но весьма значительная, масштабах длительности домен, пауза. Это помогает выделению домен.

Поэтому в зависимости от различных алгоритмов выделения может иметь место разбиение звука на несколько домен или воспринимать их целиком как один.

При разбиении потока речи на домены мы получаем еще один уровень в распознавании. В общей иерархии он находится еще ниже, чем уровень распознания фонем. Функционирование такой системы представлено на Рис.2.

 

 

Первоначально производится деление потока речи на домены, используя такие свойства доменов как, стабильная длина на протяжении одной фонемы и большую амплитуду первого колебания в домене. В дальнейшем происходит первичный анализ домена для определения методов его дальнейшей обработки. Эти методы различны для тональных, сонарных и шумных звуков. На втором этапе также производится выделение отдельных слов слитной речи.

Подробнее остановимся на методах анализа домен. Целесообразно производить такой анализ в несколько этапов с постоянным уточнением результата:

1. Простейшим методом определяем диапазон возможных значений.

2. Более сложным методом анализа определяем вероятность принадлежности данного домена к различным фонемам из ранее определенного диапазона.

Основываясь на теории нечеткой логики был разработан метод нечеткого сопоставления образцов. Суть метода состоит: на основе статистических данных составляется двоичный образ доменов для каждой фонемы. Двоичный образ представляет собой карту локальных выбросов в домене по амплитуде. При этом учитывается лишь местоположение выброса на временной диаграмме, величина амплитуды значения не имеет. Используя функцию принадлежности можно получить вероятность идентичности анализируемого домена и двоичного образца.

Анализ доменов на основе интерполяции вершин. Вид кривой проведенной по вершинам доменов аналогичен для всех доменов данной фонемы и мало различается для различных людей, а также для разных условий произнесения.

Первый этап включает в себя — построение интерполяционного множителя Тейлора по вершинам домена:

· выборку вершин, т.е. положительных экстремумов домена;

· расчет коэффициентов;

· построение многочлена.

Порядок многочлена задается числом вершин данного домена. Получив функцию, записанную в виде многочлена Тейлора, приступают к ее анализу рис.4.

Анализ по соотношениям значений функций относительно первого максимума данного домена совместно с анализом по знакам первых производных в наборе точек позволяет оценить общий вид функции. Этот метод является универсальны, сочетая в себе надежность и гибкость. Используя комбинацию данных методов можно с высокой точностью определить набор фонем для передачи на следующий уровень системы. С каждой фонемой на верхний уровень передается вероятность ее правильного определения. Используя эти данные, формируется набор слов для последующей передачи на уровень смыслового анализа.

 

 

 

 

 

еще рефераты
Еще работы по информатике