Реферат: Принцип аналогии в морфологии

Принцип аналогии в морфологии

В работеБелоногова Г. Г. и Зеленкова Ю. Г. описывается принцип построения алгоритмаморфологического анализа текстов на основе принципа аналогии. Данный принциписпользуется в системах орфографического контроля русских текстов, системахавтоматического индексирования документов и системах машинного перевода текстовс русского языка на английский и с английского языка на русский.Производительность программы на компьютере с процессором от 386 и вышесоставляет около 400 слов/с.

Приавтоматической обработке текста возникает проблема “новых“ слов. Длясинтаксического анализа и синтеза необходимо знать грамматическиехарактеристики слов. Если слова в словаре нет, то морфологический анализ неможет быть выполнен, а следовательно не могут быть определены грамматическиехарактеристики слова.

Для того,чтобы определить грамматические характеристики слов без словаря, Белоноговпредложил принцип аналогии. Он основан на том, что существует сильнаякорреляционная связь между грамматическими характеристиками слов и буквеннымсоставом их концов. Например: организация, приватизация, концентрация имеют ж.р., им. п. и ед. ч.; работают, понимают, привлекают — это глаголы в 3-ем лицемн. ч.  и т. д.

Принципаналогии проверялся на ряде индоевропейских языков: (русский, болгарский,латышский, испанский, английский) и оказался эффективным. Сначала он применялсядля определения грамматических характеристик слов, не включенных в машинныйсловарь. Затем возникла идея при проведении морфологического анализа отказатьсяот машинного словаря.

Если потекстам большого объема составить словарь словоформ и назначить каждойсловоформе некоторые грамматические признаки, а затем преобразовать данныйсловарь в обратный словарь словоформ, то можно обнаружить, что многие участкисловаря имеют одинаковые наборы признаков.

Обратныйсловарь словоформ представляет собой список словоформ с такими характеристикамикак признак длинны грамматического окончания, номер флективного класса (типасловоизменения) и числовой индекс, характеризующий такие признаки как“глагольность“, “местоименность”, “сравнительная степень”. Например:

масштаба  01/001/01

служба01/056/01

возникшие02/105/10

батальон00/021/01

рассчитывая 00/152/10

Обратныйсловарь используется для автоматического морфологического анализа текстов, еслисоставляющие их словоформы отождествлять со словоформами словаря и приписыватьим грамматическую информацию, указанную в словаре. Словоформам текста, которыене находятся в словаре, можно приписывать грамматическую информацию техсловоформ словаря, концы которых в максимальной степени совпадают с концамиэтих новых словоформ текста.

Объемобратного словаря можно сократить, если на всех его участках оставить по двесловоформы: начальную и конечную. Более того из этих двух словоформ можнооставить только одну, и если словоформа текста не совпадет ни с однойсловоформой обратного словаря, то ей приписывается информация непосредственнопредшествующей словоформы этого словаря.

Данныйсокращенный словарь можно еще сократить, если исключить из него начальные буквысловоформ, не оказывающие влияние на результаты морфологического анализа. Приэтом у каждой пары рядом стоящих словоформ оставляются справа совпадающиеконечные буквосочетания и еще по одной букве, которые не совпадают. Например:

аба  01/001/01

еба 01/044/01

неба01/071/01

авшие02/105/10

 тальон 00/021/01

 тывая 00/152/10

Послевыполнения всех операций объем словаря сокращается в 8 раз. На точностьпервоначально включенных в словарь словоформ это не повлияет, а точностьанализа остальных словоформ русского языка будет достаточно высокой.

Дляморфологического анализа текстов на основе метода аналогии достаточнорасполагать обратным словарем концов слов. Но авторы разработки сделали еще“Словарь служебных и коротких слов”. В этот словарь были включены сначалапредлоги, местоимения, частицы, союзы и короткие слова до 5 букв. Затем в неговошли также словоформы, которые по методу аналогии анализировались неверно. Врезультате этот словарь увеличился до 11 тысяч словоформ.

Такимобразом, в процессе морфологического анализа словоформы ищутся в словаре“Служебных и коротких слов”, а затем в словаре концов словоформ. Результатыанализа, полученные по первому словарю, считаются более надежными, исловоформы, найденные в этом словаре, дальнейшей обработке не подвергаются.

В настоящеевремя вероятность правильного анализа слов при обработке текстов любой тематикипревышает 99%.

В разработкеданной системы наряду с авторами данной статьи принимали участие научныесотрудники отдела лингвистических исследований ВИНИТИ: А. П. Новоселов, Е. Ю.Рыжова, С. А. Самоделкина, Ал-др А. Хорошилов, Ал-сей А. Хорошилов, Е. Г.Дружинина.

еще рефераты
Еще работы по литературе, лингвистике