Реферат: Распознавание речи

По мере развитиякомпьютерныхсистем становитсявсе более очевидным, что использованиеэтих системнамного расширится, если станетвозможнымиспользованиечеловеческойречи при работенепосредственнос компьютером, и в частностистанет возможнымуправлениемашиной обычнымголосом в реальномвремени, а такжеввод и выводинформациив виде обычнойчеловеческойречи.

Существующиетехнологиираспознаванияречи не имеютпока достаточныхвозможностейдля их широкогоиспользования, но на данномэтапе исследованийпроводитсяинтенсивныйпоиск возможностейупотреблениякоротких многозначныхслов (процедур)для облегченияпонимания.Распознаваниеречи в настоящеевремя нашлореальное применениев жизни, пожалуй, только в техслучаях, когдаиспользуемыйсловарь сокращендо 10 знаков, например приобработкеномеров кредитныхкарт и прочихкодов доступав базирующихсяна компьютерахсистемах, обрабатывающихпередаваемыепо телефонуданные. Так чтонасущная задача- распознаваниепо крайней мере20 тысяч словестественногоязыка — остаетсяпока недостижимой.Эти возможностипока недоступныдля широкогокоммерческогоиспользования.Однако рядкомпаний своимисилами пытаетсяиспользоватьуже существующиев данной областинауки знания.

Для успешногораспознаванияречи следуетрешить следующиезадачи:

Ю обработкусловаря (фонемныйсостав),

Ю обработкусинтаксиса,

Ю сокращениеречи (включаявозможноеиспользованиежестких сценариев),

Ю выбордиктора (включаявозраст, пол, родной языки диалект),

Ю тренировкудикторов,

Ю выборособенноговида микрофона(принимая вовниманиенаправленностьи местоположениемикрофона),

Ю условияработы системыи получениярезультатас указаниемошибок.

Существующиесегодня системыраспознаванияречи основываютсяна сборе всейдоступной(порой дажеизбыточной)информации, необходимойдля распознаванияслов. Исследователисчитают, чтотаким образомзадача распознаванияобразца речи, основаннаяна качествесигнала, подверженногоизменениям, будет достаточнойдля распознавани, но тем неменеев настоящеевремя даже прираспознаваниинебольшихсообщенийнормальнойречи, пока невозможнопосле полученияразнообразныхреальных сигналовосуществитьпрямую трансформациюв лингвистическиесимволы, чтоявляется желаемымрезультатом.

Вместо этогопроводитсяпроцесс, первымшагом которогоявляетсяпервоначальноетрансформированиевводимой информациидля сокращенияобрабатываемогообъема так, чтобы ее можнобыло бы подвергнутькомпьютерномуанализу. Примеромявляется «техникасопоставленияотрезков», позволяющаясократитьвводимую информациюс 50'000 до 800 битовв секунду. Следующимэтапом являетсяспектральноепредставлениеречи, получившеесяпутем преобразованияФурье. РезультатпреобразованияФурье позволяетне только сжатьинформацию, но и дает возможностьсконцентрироватьсяна важных аспектахречи, которыеинтенсивноизучались всфере экспериментальнойфонетики. Примертакого представлениясм на рис. Спектральноепредставлениедостигнутопутем использованияшироко-частотногоанализа записи.

Хотя спектральноепредставлениеречи оченьполезно, необходимопомнить, чтоизучаемыйсигнал весьмаразнообразен.Разнообразиевозникает помногим причинам, включая:

Ю различиячеловеческихголосов;

Ю уровеньречи говорящего;

Ю вариациив произношении;

Ю нормальноеварьированиедвиженияартикуляторов(языка, губ, челюсти, нёба).

Для устранениянегативногоэффекта влиянияварьированияголосовоготракта на процессраспознаванияречи былоиспользованомножествометодов. Первымделом рассматриваласьхарактеристикапространстватраекторииартикуляторныхорганов, включаягласные, используемыеговорящим.Наиболее удачныеформы трансформации, использованнойдля сокращенияразличий, быливпервые представленыСакоя & Чибои называлисьдинамичнымиискажениями(dynamic time warping). Техникадинамичногоискаженияиспользуетсядля временноговытягиванияи сокращениярасстояниямежду искаженнымспектральнымпредставлениеми шаблоном дляговорящего.Использованиеданной техникидало улучшенииточного распознавания(~20-30%). Метод динамичногоискаженияиспользуютпрактическивсе коммерческидоступныесистемы распознавания, показывающиевысокую точностьсообщения прииспользовании.Техника динамичногоискаженияпредставленана рис.2. Вначалесигнал преобразовываетсяв спектральноепредставление, где определяетсянемногочисленный, но высокоинформативныйнабор параметров.Затем определяютсяконечные выходныепараметры дляварьированияголоса(следуетотметить, чтоданная задачане являетсятривиальной)и производитсянормализациядля составленияшкалы параметров, а также дляопределенияситуационногоуровня речи.Вышеописанныеизмененныепараметрыиспользуютсязатем для созданияшаблона. Шаблонвключаетсяв словарь, которыйхарактеризуетпроизнесениезвуков припередаче информацииговорящим, использующимэту систему.Далее в процессераспознаванияновых речевыхобразцов (ужеподвергшихсянормализациии получившихсвои параметры), эти образцысравниваютсяс шаблонами, уже имеющимисяв словаре, используядинамичноеискажение ипохожие метрическиеизмерения. Внастоящее времяэтот методизучается идополняется.

Очевидно, чтоспектральноепредставлениеречи позволяетхарактеризоватьособенностиголосовоготракта человекаи способ использованияего говорящим.Самый обычныйспособ моделированияспецифическихэффектов«модель-источник»- использованиефильтров. Речевойаппарат моделируетсяс использованиемисточников, вызывающихрезонанс, ведущийк пиковым точкаминтенсивностизвука в соседствес отдельнымичастотами, называемымиформантами.При произнесениизвуков вибрацияголосовыхсвязок являетсяисточникомвозбуждения, и эти короткиеимпульсы вызываютрезонанс междуголосовымисвязками игубами. Так какязык, челюсть, губы, зубы иальвеолярныйаппарат двигаются, размер и местоэтих резонансовменяются, даваявозможностьвоспроизведенияособых параметровзвуков.

Возможно построитьочень точнуюмодель, такжепрямо смоделироватьдвиженияартикуляторовфизиологическиреальным путем.Использованиеэтих моделейпривели к пониманиюпути, в которомпроисходитречевой сигнал.Но так как наблюдениенад артикуляторамизатруднено, остаются недостатки.Хотя природавокальноготракта оченьсильно влияетна выходнойсигнал речи, это не единственноеограничение, которое необходимопринимать вовнимание, таккак контрольнад мускуламизвуковоготракта обусловленсигналамимоторногокортэкса мозга.Возможно всеаспекты влиянияакустическойструктурыконтролируютсигналы и формузвуковоговыхода речи(хотя это неможет бытьдоказано ссистематическойточки зрения).

Аспекты влиянияакустическойструктурывключает всебя:

Ю природусегментовиндивидуальногозвука (гласные/согласные),

Ю структуруслога,

Ю структуруморфем (приставки, корни, суффиксы),

Ю лексикон,

Ю уровеньсинтаксисафраз и предложенийи

Ю долгосрочныеограниченияречи (long-term discourse constraints).

Ниже рассматриваетсявлияние ограниченийи способ ихвоздействияпроизводствосигнала речи.Необходимотакже принятьво вниманиетот факт, чточеловеческийаппарат восприятиятакже долженбыть смоделирован, он сам по себенакладываетна процессвосприятиядополнительныеограничения.Недавно процессвосприятиябыл изучен спомощью методасигнальногоподавлениябарабанныхперепонок черезвозбуждениенервных клеток, которые образовываютпримерно 30 тысячнервных окончанийслуховогонерва. Но изучениенервных окончанийспособно толькопрояснитьформированиепростых синтетическихгласных. Передисследователямивстало новоеглавное направлениев области изучениявоспроизводстваречи, связанноес интеграциейвсей физиологиивосприятиячеловека. Внастоящиймомент появляютсянекоторыемодели явлений, происходящихв ухе, и не безоснований можноожидать дальнейшегоулучшенияпониманияпроцессараспознаванияречи из-за болееполного пониманияхарактеристикэтого влияния.

Что касаетсяуровня артикуляторногоконтроля, первымуровнем являетсяиндивидуальныйфонетическийсегмент, иначеговоря, — фонема.Во многихестественныхязыках их примерно40. Но их наборсущественноразличатется.Поэтому, например, английскиегласные могутбыть носовыми, даже ненамеренно, в то время какво французскомносализациягласных являетсяфонетическимконтрастом, и поэтому влияютна значениепроизносимого.Во французскомязыке носоваякоартикуляциядоминируетв гласных исущественновлияет на восприятиефонем и следовательнона главныйсмысл значения.Хотя все говорящиеимеют одинаковыйголосовойаппарат, использованиеего разное. Такнапример, использованиекончика языкаили прищелкивание, как в некоторыхафриканскихязыках. Ясно, что природаартикуляционныхдвижений имеетсильное влияниена метод воспроизведенияречи. Эти ограничениявсегда активноиспользуютсяв практическихсистемах.

На следующемуровне лингвистическойструктурыфонетическиесегментысгруппированыв согласные/гласные, а следовательнои в слоги. Далее, в зависимостиот роли фонетическогосегмента внутриэтих слогових реализацияможет бытьсильно изменена.Так например, начальныйсогласный вслоге можетбыть реализованкак абсолютноотличный отконечной позиции.Согласные оченькрепко связываютсямежду собой, что опять жевлияет на последующиеограничения.Например, ванглийскомесли начальнаягруппа согласныхсостоит из трехфонем, перваяфонема должнабыть /s/, следующейфонемой долженбыть непроизносимыйсогласный, третьей или/r/ или /l/, как например, в слове /scrape/ или/split/. Говорящиена родном языкеизбегают этихограниченийили могут активноих использоватьво время процессавосприятия.Из выше приведенныхпримеров очевидно, что хотя и существуютсильные ограничения, влияющие наслушателя, ноих сила не являетсярешающей вовремя произнесенияречи. То естьлюбое моделированиепроцесса восприятияможет бытьактивным иможет оказатьбольшую помощьв пониманииглавного смысла.

Другой пример, показывающийнеобходимостьприменениясфокусированногопоиска, можетбыть представленв восприятииконечногосогласного.Среди многихключевых словдля распознаванияконечногосогласногосуществуетспектральнаяприрода шума, воспроизводимогопри освобожденииконечной перемычкии переходарезонансавторой формантыв гласный, следующийза этой перемычкой.Многие исследователиизучали этивлияния, и результатыих исследованийпоказали, чтоограничивающеевлияние обоихвышеописанныххарактеристикна восприятиеварьируетсяприродой следующегогласного, иследовательно, мощная стратегияраспознаваниядолжна иметьнекоторыезнания о твердойпозиции гласногоперед конечнымсогласным передтем, как будетсделано самораспознаваниеконечногосогласного.Конечные согласныедают яркийпример весьмаинтересногокомплексафонетики, используемогодля лингвистическойокраски. Например, при рассмотрениислов rapid и rabid обнаруживается16 фонетическийразличий.

Кроме сегментногои слоговогоуровней существуютограниченныевлияния из-заструктурыморфем, которыеявляются минимальнымисинтаксическимиединицамиязыка. Они включаютв себя приставки, корни, суффиксы.Можно себепредставить, что это синтаксисна слоговоми на морфемномуровнях, такжекак и нормальнораспознанныйсинтаксис, характеризующийсяспособом, вкотором английскиеслова объединяютсяво фразы ипредложения.Возможно представитьданные ограничениякак последствиярассмотренияграмматикивне контекста.В этом видеограничениймного “шумных”вариаций сегментовречи, которыетак же относятсяи к иерархическимсинтаксическимограничениям.

Дополнительныеограниченияна природевхода новойлексики в языкмогут являтьсяуровнем слова.Многие исследованияобнаружили, что характеристикаслов при введенииразбиения на5 жестких классовфонетическихсегментов можетбыть сокращенадо минимума, часто имеяединственноев своем родераспознавание.Далее слишкомусиливаетсяэффект порядкадвух букв ифонетическихсегментов стех пор как визучении английскихи французскихсловарей былообнаружено, что более 90% словимели единственноезначение итолько 0,5% имели2 и больше альтернатив.На фонемномуровне былообнаружено, что все словав английскомсловаре из 20тысяч словимели однозначение из-забеспорядочныхфонемных пар.Этот примерпомогает показать, что все ещесуществуетограничивающеевлияние налексическомуровне, котороееще не определенов современныхсистемахраспознаванияречи. Естественно, что исследованияв этой областипродолжаются.

Кроме уровняслов синтаксисимеет дополнительноеограничительноевлияние. Еговлияние напоследовательныйпорядок словчасто характеризуетсяв системахфактором, которыйв свою очередьхарактеризуетколичествовозможных слов, которые могутследовать запредыдущимсловом в процессепроизнесения.Синтаксис такжеимеет ограничительныевлияния напросодическиеэлементы, такиекак ударение, например вслучае, когдаударение словв incline и survey варьируетсяв зависимостиот части речи.Возможно длятого, чтобыохарактеризоватьударение вслове, нужнопринять вовнимание нетолько индивидуальноеслово, но вышеприведенныедополнительныеограничениясинтаксиса.

Далее, кромесинтаксическогоуровня ограничениядоминируютнад семантикой, прагматикойи речью, чтоплохо осознаетсялюдьми, однакоимеет оченьважное значениедля процессараспознавания.

Несмотря насложностьописанияхарактеристикисточниковразличныхограничений, немаловажнуюроль играютсовременныесистемы влияния, которые представленывсеми возможнымивариантамипроизнесениязвуков. Например, система HARPI университетаСarnegie-Mellon University являетсясистемой, вкоторойзвуковоспроизведениеописываетсякак путь черезкомплекснуюсеть. В этомспособе ограниченияструктурыслога, словаи синтаксисасвязаны однойструктурой.Структураконтроля, используемаядля поиска, является адаптациейдинамичнойпрограммнойтехники. Болеесильный подходбыл предложенмоделямииспользованияцепей Маркова.Эти моделииспользовалиськак единаяструктура, гдевозможностимогут бытьточно изученыэкспериментальнымпутем. Закодированныепредставленияспектральнойтрансформациивоспроизводстваречи используютсядля нахождениясамого правильногопути черезсеть, и недавнобыли полученыочень хорошиерезультаты.Очень важноподчеркнутьиспользованиетакого формально-структурногоподхода, которыйспособствуетавтоматичномуопределениюклассов символовчерез структурированиеи параметризацию.

При другомподходе базыданных и связанныес ними процессыобработкииспользуютсяструктуройконтроля. Этотподход былизучен системойHEARSAJ 2, которая быларазработанав институтеСarnegie-Mellon University, и системойHWIM (hear what I mean). В этихсистемах комплекснаяструктураданных, котораясодержит всюинформациюо воспроизведениизвуков, изучаетсяс точки зренияконкретныхограничений.Но как вышеуказано, каждоеиз этих ограниченийимеет особуювнутреннююмодель, и полныйанализ не можетбыть произведен.Для проведенияанализа в целомструктураданных должнаиметь взаимодействиемежду разнымипроцессами, а также средствадля интеграции.Несмотря нато, что структуравключает в себянескольковесьма различныхисточниковзнаний и еевклад в пониманиеречи оченьобщий, она такжеимеет большоеколичествостепеней свободы, которые могутбыть использованыдля тщательногосистемноговоспроизведения.В отличие отэтого, техника, основаннаяна цепях Маркова, имеет математическуюподдержку.Чтобы иметьвозможностьсфокусированногоисследованияограниченийвзаимодействияи интеграциив контексте, необходимоприменять обесистемы. Тесистемы, которыеописываютограничениевзаимодействия, сфокусированыво многом навоспроизведениизнаний, и ониотносительнослабо контролируемы, а системам сматематическойподдержкой, которые в своюочередь имеютвеликолепнуютехнику дляустановленияпараметрови оптимизацииизучения, недостает использованиякомплекснойструктурыданных, необходимыхдля характеристикиограниченийвысокого уровня, таких как синтаксис.Оба направленияв настоящиймомент находятсяв процессеразвития.

В заключениеследует сделатьакцент на влияниепроизводственнойтехнологиина эти системы.Технологияинтеграциине являетсябольшой проблемойдля системраспознаванияречи, наоборот, это являетсяархитектуройэтих систем, включая способпредставленияограничений.Необходимопровести грандиозныеэкспериментыи найти новыеспособы, которыенеобходимыдля ограничительноговлияния взаимодействия.

Во многих способахраспознаваниеречи имееттипичный примерстремительноразвивающегосякласса высокоинтегрированныхкомплексныхсистем, которыедолжны использоватьлучшую компьютернуютехнику и самыепоследниедостижениясовременногоматематическогообеспечения.

еще рефераты
Еще работы по иностранным языкам