Реферат: Яние проекта по созданию лингвистической онтологии специального информационно-поискового тезауруса для автоматической обработки текстов по естественным наукам


Лингвистическая онтология по
естественным наукам и технологиям для
приложений в сфере информационного-поиска


Б.В. Добров1, Н.В. Лукашевич2


Аннотация

В работе описывается идея, методология и текущее состояние проекта по созданию лингвистической онтологии – специального информационно-поискового тезауруса для автоматической обработки текстов по естественным наукам. В настоящее время ресурс содержит более 30 тысяч понятий, 70,000 терминов для таких научных дисциплин как математика, физика, химия, геология и биология. В статье также рассматриваются типы изменений описаний понятий, происходящих при перемещении описаний из общезначимой лингвистической онтологии в лингвистическую онтологию конкретной прикладной области.


1. Введение


Эффективное решение задач информационного поиска научно-технической информации является одним из условий перехода отраслей экономики на качественно новые технологические уровни.

Большое распространение получили глобальные машины поиска, обеспечивающие поиск на основе лексического совпадения запроса и документа. Для профессионального, в том числе научно-технического, поиска информации требуется обеспечение поиска, основанного на знаниях, – использование синонимов, возможности автоматического расширения запроса, возможностей автоматического анализа результатов запроса и помощь в интерактивном поиске.



Традиционными средствами тематического поиска научной информации в течение многих лет являлись информационно-поисковые тезаурусы. Однако такие тезаурусы создавались для их использования в процессе ручного индексирования и поиска, и не обеспечивают эффективного информационного поиска в автоматических режимах (Salton, 1998; Soergel et.al., 2004).

В настоящее время перспективы организации более качественного, содержательного информационного поиска в сети интернет связываются с разработкой онтологий.

Согласно (Gruber, 1993), под онтологиями понимают систему явной концептуализации предметной области, то есть формального представления предметной области.

Отметим, что существуют разные формальные интерпретации (Guarino, 1998; Hovy, 1998; Stumme, 2001) столь нечеткого определения. Общим для всех формализаций является выделение множества объектов (концептов, понятий), алфавита отношений, правил установления отношений и аксиом, задающих правила вывода на множестве отношений.

С точки зрения использования онтологий в задачах автоматической обработки текста существует два подхода к установлению соответствия между онтологией предметной области и языком предметной области (лексиконом).

С одной стороны, сначала строится система понятий, которым затем приписываются наборы языковых выражений (слов, терминов, словосочетаний). Обнаружение этих выражений в тексте позволяет инициировать соответствующие понятия и связанные с ними правила (Gruber, 1993).

С другой стороны, замечено, что существующие лингвистические ресурсы (словари, глоссарии, тезаурусы) также задают определенную концептуализацию предметной области.

В результате, согласно современным воззрениям, термину «онтология» удовлетворяет широкий спектр структур, представляющих знания о той или иной предметной области. В качестве в разной степени формализованных онтологий рассматриваются (Welty et.al., 1999):


Словарь с определениями,




Простая таксономия,




Тезаурус (таксономия с терминами),




Модель с произвольным набором отношений,

(*)

Таксономия и произвольный набор отношений,




Полностью аксиоматизированная теория.




Одновременно подчеркивается (Gomez-Perez et.al., 2000) различие между фундаментальными онтологиями (fundamental ontologies), которые описывают предметную область максимально полно ((*), п.6), безотносительно к приложениям и обычно с максимальной степенью формализации, и прикладными онтологиями (application ontologies), которые также называются «легкими» онтологиями (lightweight ontologies) и которые формализуются настолько, насколько это необходимо для приложения ((*), пп. 1-5).

Понятно, что создать фундаментальную онтологию для большой области научного знания не представляется возможным в силу существования различных теорий и постоянного изменения трактовки самых базовых понятий.

С другой стороны, степень формализации описания предметных областей в традиционных информационно-поисковых тезаурусах оказалась недостаточной для автоматического расширения запросов в информационном поиске .

Возникает вопрос, какова же должна быть степень формализации предметной области, структура онтологии, чтобы

с одной стороны, эту онтологию можно было создать и начать использовать в разумные сроки (2-3 года) относительно небольшим коллективом,

с другой стороны, чтобы степень формализации понятийной структуры предметной области обеспечивала возможность содержательного информационного поиска в автоматических режимах.

Как уже указывалось, понятия онтологии, предназначенные для поддержки решения задач информационного поиска, должны быть аккуратно связаны со значениями терминов предметной области. Такого рода онтологии называются лингвистическими онтологиями: главной характеристикой лингвистических онтологий является то, что они связаны со значениями (“are bound to the semantics”) языковых выражений (слов, именных групп и т.п.) (Gomez-Perez et al., 2000)

В качестве примера лингвистической онтологии часто приводится ресурс WordNet (Miller et.al., 1990). Этот ресурс представляет в виде иерархической структуры систему значений слов общезначимого английского языка. Вместе с тем возникает достаточно много проектов, которые описывают на основе модели WordNet терминологические системы конкретных предметных областей, то есть создают лингвистические онтологии этих областей (Buitellar, Sacalenau, 2001; Vossen, 2001; Roventini, Marinelli, 2004).


Под руководством авторов в 2004 году были начаты работы над созданием лингвистической онтологии для автоматической обработки в области естественных наук.

В статье, обобщающей работы (Добров и др., 2005; Добров, Лукашевич, 2006а,б), описывается идея, методология и текущее состояние проекта. Во втором разделе рассматриваются достоинства и недостатки существующих лингвистических ресурсов с точки зрения применимости для автоматической обработки научных текстов в сфере естественных наук. В третьем разделе мы описываем идею и основные положения проекта создания лингвистической онтологии для естественных наук. В следующем разделе описывается ранее созданные авторами онтологии – Тезаурус русского языка РуТез, Общественно-политический тезаурус, на основе методологии создания которых создается и новая лингвистическая онтология. В пятом разделе излагаются этапы построения онтологии, приводятся данные о текущем состоянии ресурса, о способах тестирования создаваемой онтологии. Шестой раздел описывает типы изменений в описаниях понятий, полученных онтологией ОЕНТ из Тезауруса РуТез.


2 Ресурсы для смыслового анализа электронных коллекций


2.1 Традиционные информационно-поисковые тезаурусы


Хронологически первыми ресурсами, служащими для упорядочения работы с электронными коллекциями были информационно-поисковые тезаурусы (ИПТ) (ИНИОН, 1989; Шемакин, 1974; UNBIS Thesaurus, 1976; LIV, 1994), в которых синонимичные термины были собраны вокруг наиболее представительного термина (предпочтительного термина), называемого дескриптором, а между дескрипторами устанавливались отношения.

Однако традиционные информационно-поисковые тезаурусы разрабатывались для ручного индексирования человеком- индексатором, а объем потоков информации в настоящее время значительно превосходит возможности индексаторов по их тематической обработке. Применение традиционных информационно-поисковых тезаурусов при автоматическом индексировании и автоматическом расширении запроса приводит лишь к ухудшению характеристик поиска по сравнению с поиском по словам (Salton, 1989; Voorhees, 1999).

Это связано с тем, что традиционный информационно-поисковый тезаурус описывает по сути дела искусственный язык, служащий для фиксации основной темы документа. Человек-индексатор должен был перевести естественный язык документа на искусственный язык тезауруса. Поэтому вся процедура разработки и использования информационно-поисковых тезаурусов основывалась на лингвистических и предметных знаниях эксперта. Многие решения, принимаемые в процессе создания тезаурусов, были направлены на то, чтобы сделать работу индексатора более удобной и менее субъективной.

Чтобы использоваться в автоматическом режиме традиционным тезаурусам не достает значительного объема информации:

описания большого количества понятий более низкого уровня иерархии, чем представленные дескрипторы;

намного более подробное описание синонимии терминов;

описания многозначности слов;

недостаточна также система традиционных отношений между дескрипторами тезауруса и их свойств, базирующая в основном на использовании отношений ВЫШЕ-НИЖЕ и Ассоциация.


В России наиболее известен Тезаурус научно-технических терминов (Шемакин, 1974), который издан в 1972 году. Тезаурус описывает терминологию военно-промышленного комплекса 70-х годов, не соответствует реалиям и технологиям настоящего времени. ВИНИТИ обладает громадным массивом научно-технических текстов, имеются наборы терминов (Белоногов и др., 1993) по научно-техническим отраслям. Но эти термины не организованы иерархическими связями в единый ресурс научно-технической терминологии.


2.2 От информационно-поисковых тезаурусов к фундаментальным онтологиям


Некоторые авторы (Soergel et al., 2004; Tudhope et al., 2001), решая проблему модификации традиционных информационно-поисковых тезаурусов к современным задачам автоматической обработки больших текстовых коллекций, предлагают преобразовать систему отношений тезауруса в более формализованный набор предикатов (уровень формализации 5, см. введение) и описать правила вывода (аксиомы).

Так, например, в работе (Soergel et al., 2004) в качестве примеров модификации информационно-поискового тезауруса по сельскому хозяйству AGROVOC приводятся следующие словарные статьи:

Исходные статьи тезауруса (NT – отношение НИЖЕ, BT - отношение ВЫШЕ):

milk

NT cow milk

NT milk fat

cow

NT cow milk

Cheddar cheese

BT cow milk


Преобразованные словарные статьи выглядят следующим образом:

milk

<includesSpecific> cow milk

<containsSubstance> milk fat

cow

<hasComponent> cow milk

Cheddar cheese

<madeFrom> cow milk


Пример предлагаемых правил вывода:

Правило 1:

Part_X <mayContainSubstance> Substance_Y

IF Animal_W <hasComponent> Part_X

AND Animal_W <ingests> Substance_Y


Правило 2:

Food_Z <containsSubstance> Substance_Y:

IF Food_Z <madeFrom> Part_X

AND Part_X <containsSubstance> Substance_Y


Предполагается, что система, имея такие правила вывода, может автоматически получить, что сыр-чеддер содержит (containsSubstance) молочный жир, и, что если коровы на ферме съели корма, зараженные ртутью, то, сыр, сделанный из этого молока, также, возможно, будет заражен ртутью (Cheddar cheese <mayContainSubstance>mercury).

Однако, чтобы такой вывод действительно отработал, помимо изменений в описании понятий и терминов предметной области, нужно иметь автоматические средства обработки естественно-языковых текстов, позволяющие в неограниченном связном тексте точно и полно извлекать последовательности фактов, уметь прослеживать кореферентность, следить за временем извлекаемых фактов: в корма попала ртуть, эти корма принадлежат данной ферме, коровы этой фермы съели именно эти корма, изготовление сыра чеддер этой фермой произведено в период времени сразу после того, как эти коровы съели эти корма и т.п.

Кроме того, в тексте слова корма и ртуть могут оказаться в разных частях длинного предложения, или в разных предложениях текста, например, из-за использования эллиптической конструкции или местоимения и т.п., что значительно усложнит выявление этого факта.

Понятно, что в настоящее (и ближайшее) время ни одна из существующих систем автоматической обработки текстов, извлечения знаний из текстов не может обеспечить такой уровень точности и полноты получения информации из текстов, на которых надежно можно было обосновывать работу таких правил вывода.

Таким образом, по нашему мнению, значительные трудозатраты на такого рода формализацию информационно-поисковых тезаурусов не приведут к улучшению качества автоматической обработки текстов и созданию ресурсов, лучше приспособленных к автоматическим режимам работы, чем существующие информационно-поисковые тезаурусы.


^ 2.3 Отношения в онтологии, применяемой в неопределенных контекстах


На основе анализа, проведенного в предыдущей секции, можно заметить, что информационно-поисковые онтологии в течение долгого времени будут вынуждены применяться в условиях неопределенного контекста, то есть в условиях, когда ни об одном выявленном в тексте понятии не будет точно и полно известен даже набор явно упоминаемых о нем в тексте фактов и других видов информации. Таким образом, в таких условиях надежно могут использоваться лишь отношения, которые не зависят или слабо зависят от конкретного текста, т.е. которые не исчезают, не меняются в течение всего срока существования любого или подавляющего большинства экземпляров понятия. Например, любой лес всегда состоит из деревьев.

Наиболее известным типом отношения, которое выполняется для всех экземпляров, является таксономическое отношение. Так, если ^ С1 упомянуто в тексте и С1 является видом С2, это означает, что в тексте упомянуто и С2. Если данный текст релевантен запросу о С1, то он будет релевантен и запросу о С2.

В условиях невозможности использования сложных правил вывода, для осуществления вывода по тексту желательно найти другие типы отношений, обладающие свойствами транзитивности и наследования, подобно таксономическим отношениям.

Как представляется, что именно такого рода отношениями являются отношения онтологической зависимости, изучаемые в рамках философской дисциплины «формальная онтология» (Guarino, 1998).

Отношения онтологической зависимости описывают, подразумевает ли существование одного понятия существования каких-либо других понятий. Эти отношения подразделяются на следующие виды:

подразумевает ли существование сущности существование чего-либо еще (строгая зависимость – rigid dependence), например, кипение не возможно без существования конкретного объема жидкости, которая кипит;

предполагается ли существование примеров некоторого класса (родовая зависимость - generic dependence) некоторых сущностей, как например, возникновение понятия гараж невозможно без существования понятия автомобиль, хотя конкретный гараж может возникнуть безотносительно к конкретному автомобилю;

предполагает ли существование Х в некоторый момент времени T, существования Y в некоторый другой момент времени Т1 (историческая зависимость), например, солома исторически зависит от молотьбы, поскольку солома не может возникнуть без предварительного процесса молотьбы, вместе с тем эти работы заканчиваются, а солома длительное время продолжает существовать.


В работе (Gangemi et al., 2001) постулируется транзитивность отношений онтологической зависимости.

В работах (Добров, Лукашевич, 2001; Лукашевич, Добров, 2004) было показано, что отношения строгой и родовой онтологической зависимости эффективны для создания ресурсов для информационного поиска.


2.4 WordNet как лингвистическая онтология


Целью разработки WordNet (Miller et.al., 1990) не являлось описание системы понятий, а установление системы отношений между лексическими значениями.

Между значениями слов и понятиями имеется достаточно сложная взаимосвязь: «значение шире понятия, так как включает в себя оценочный и ряд других компонентов, значение уже понятия в том смысле, что включает лишь различительные черты объектов, а понятия охватывают их наиболее глубокие существенные свойства…» (Гак, 1990).

Наиболее ярко различие между описаниями лексики и иерархии понятий в ресурсах типа WordNet проявляется в расчленении иерархической сети на подсети по частям речи, когда совпадающим по значению, но различающимся по частям речи словам (например, приватизация, приватизировать, приватизационный) соответствуют разные узлы иерархической сети. Ясно, что понятие, соответствующее этим словам, должно быть одно и то же.

Многие типы отношений в ресурсах класса WordNet, такие как отношение антоним, дериват, валентности (Climent et al., 1996), описывают отношения между лексическими единицами, а не понятиями.

В конкретных предметных областях значения предметной лексики и понятия предметной области максимально сближаются, но применяемые при разработке WordNet-подобных ресурсов в конкретных предметных областях методы (модели, отношения) остаются теми же, что и для описания общезначимой лексики.

При создании WordNet-подобных ресурсов в конкретных предметных областях роль концептуального анализа понятийной модели предметной области играет меньшую роль по сравнению с информационно-поисковыми тезаурусами, при разработке которых связь термин-понятие предметной области осознавалась достаточно четко.

В то же время внимание разработчиков WordNet-подобных ресурсов в конкретных предметных областях к каждой языковой единице, работа со значениями предметной лексики являются необходимыми для автоматизации обработки предметных текстов, поскольку путь к понятийному содержанию того или иного текста лежит через совокупность конкретных языковых выражений этого текста.

Итак, подчеркнем, в информационно-поисковых тезаурусах недостаточно представлена связь понятий предметной области с лексикой конкретных текстов, в WordNet-подобных ресурсах ослаблена понятийная сторона описания предметной лексики. Между тем, для успешного автоматического анализа предметно-ориентированных текстов описание «понятие - язык предметной области» должно быть сбалансировано: описание предметной лексики невозможно без анализа понятийной модели предметной области, распознавание понятийного содержания текстов невозможно без качественного описания языка предметной области.

Лингвистической онтологией, в которой была сделана попытка такого сбалансированного подхода к описанию системы значений языковых единиц и связанной с ними системы понятий, является онтология Mikrokosmos (Mahesh, Nirenburg, 1995).


3 Проект разработки новой лингвистической онтологии


В проекте предлагается создать лингвистическую онтологию для обеспечения автоматической обработки научно-технической информации – понятийного индексирования, автоматической классификации потока научно-технической информации.

Создаваемая лингвистическая онтология строится на сочетании трех различных традиций и методологий:

методологии разработки информационно-поисковых тезаурусов;

методологии разработки лингвистических ресурсов типа WordNet (Принстонский университет);

методологии созданий формальных онтологий.


Из методологии разработки информационно-поисковых тезаурусов важны следующие принципы:

единицы тезауруса создаются на основе терминологии;

описание большого числа многословных выражений, принципы включения (не включения) многословных единиц;

простой набор отношений между единицами.


Из методологии разработки лексических ресурсов типа WordNet важны следующие положения:

многоступенчатое иерархическое построение лексико-терминологической системы понятий;

технология описания значений многозначных слов и выражений.


Из методологии разработки формальных онтологий:

разработка лингвистической онтологии как иерархической системы понятий;

строгость построения таксономии, отличие истинно таксономических отношений от ролевых отношений;

использование для описания нетаксономических отношений онтологической зависимости.

в качестве аксиом (правил вывода) использовать свойства транзитивности и наследования таксономических отношений и отношений онтологической зависимости.


Основной процедурой разработки такой лингвистической онтологии является следующая совокупность этапов.

Прежде всего, создается большой корпус текстов, принадлежащий предметной области, для которой создается онтология.

С помощью разного рода автоматизированных процедур из текста извлекаются значимые в предметной области слова и словосочетания.

После этого с корпусом, а также со словарями предметной области начинают работать эксперты.

Основными целями их работы являются следующие:

изучая конкретные языковые выражения, их словарные определения, употребление в конкретных текстах определить, какому понятию соответствует значение данного языкового выражения. Если такое понятие уже существует, данное языковое выражение приписывается этому понятию. Для нового понятия создается отдельная единица в иерархической сети;

Для каждого понятия по корпусу набирается максимально возможное число различных слов, выражений, значения которых соответствуют этому понятию. Такие языковые выражения называются текстовыми входами понятия или терминами онтологии.

Для каждого понятия проводится концептуальный анализ для выяснения его таксономических отношений и отношений онтологической зависимости. Поскольку эти отношения являются наиболее важными для широкого круга понятий, их часто можно выявить на основе анализа определений соответствующих терминов в терминологических словарях, употреблений в текстовых контекстах, сопоставления определений и текстовых контекстов.


Как показывает практика, в связи с многократно описанными проблемами получения знания от экспертов в предметной области (Гаврилова, 2001), наиболее эффективным является максимально полная разработка ресурса на основе анализа текстового корпуса. Далее созданный проект ресурса предъявляется экспертам в предметной области, которые уже достаточно легко находят в нем возможные ошибки и неточности, могут объяснить, почему им не понравилось то или иное отношение.

Следует отметить, что на этапе разработки онтологии в качестве экспертов выступают лингвисты, которые имеют опыт работы с текстовыми корпусами, лексическими значениями. Помимо авторов в разработке онтологии принимали участие эксперты-лингвисты: Штернова О.А., Селиванова Т.М, Каргина И.А.


Основная парадигма авторов проекта состоит в том, что базисом для автоматического смыслового анализа текстов, в том числе для Semantic Web, должны действительно стать онтологии предметных областей, но это должны быть БОЛЬШИЕ онтологии, ориентированные на основную среду обмена информации – текстовую информацию.

Действительно, подробная сетки понятий, описываемые с единых всем понятных “языковых” позиций, должны обеспечивать возможность интеграции онтологий разных предметных областей по пересекающимся понятиям.

Данный вывод авторы проекта делают на основе имеющегося опыта создания больших лингвистических онтологий для нескольких предметных областей: области общественно-политических отношений (лексика правовых документов и материалов СМИ), области технической авиационной документации, области спецификаций на программное обеспечение, области компьютерной безопасности.


4. Отправная точка


^ 4.1. Ранее созданные ресурсы


Авторы проекта ранее (Лукашевич, 1995; Лукашевич, Салий, 1996) создали информационно-поисковый тезаурус для автоматического индексирования текстов в общественно-политической области (далее – Общественно-политический тезаурус), включающих более 32 тысяч понятий, 79 тысяч русскоязычных и 80 тысяч англоязычных текстовых входов.

Представляя собой по форме информационно-поисковый тезаурус с ограниченным набором отношений, Общественно-политический тезаурус построен на основе формальных онтологических принципов. Это позволяет нам позиционировать его как лингвистическую онтологию для автоматической обработки документов в области общественно-политических отношений.

Создан (Добров, Лукашевич, 1996; Добров, Лукашевич, 2001) не только лингвистический ресурс, но и комплекс математического обеспечения (моделей, алгоритмов) и программного обеспечения (утилит, информационных систем). То есть создан полный технологический цикл от набора терминологии до реализации обеспечения функционирования информационно-аналитических систем различного назначения.

Общественно-политический тезаурус используется как лингвистический ресурс в таких задачах информационного поиска как автоматическое концептуальное индексирование, визуализация результатов поиска, автоматическая рубрикация документов, автоматическое аннотирование.

С 1998 года Общественно-политический тезаурус вошел в состав Тезауруса русского языка РуТез, который теперь помимо общественно-политической терминологии содержит описаний значений широкий круг общезначимой лексики в виде сети понятий и поэтому также рассматривается нами как лингвистическая онтология. Далее мы будем ссылаться на лингвистическую онтологию Тезаурус РуТез, подразумевая в его составе Общественно-политический тезаурус.

Для реализации обсуждаемого проекта наиболее важны созданные ранее технологии быстрого автоматизированного формирования (Добров и др., 2003) терминологической базы по текстам, а также возможность использования уже существующего ресурса большого объема.

В общественно-политических текстах понятия общественных наук встречаются значительно чаще, чем понятия естественных наук, что находит свое отражение в составе Общественно-политического тезауруса. Тем не менее сфера естественных наук затрагивается в связи с обсуждением вопросов промышленности, нефтедобычи, медицины и т.п., поэтому соответствующая научная лексика и терминология неплохо представлена в тезаурусе, что позволило поставить задачу ее использования при создании нового ресурса.


^ 4.2. Причины раздельного ведения онтологий


Начале работ над Онтологией по естественным наукам и технологиям означало, что было принято решение раздельно разрабатывать две разные онтологии для анализа текстов в общественно-политической сфере (газетные статьи, новостные сообщения, законодательные акты, международные договоры) и научных публикаций.

Решение о разделение онтологий было связано с несколькими серьезными факторами.

Во-первых, обе онтологии достаточно объемны, включают десятки тысяч понятий и отношений, при этом большая часть понятий общей онтологии обычно не используется в текстах естественных наук, и наоборот, научные понятия по большей мере не нужны для анализа таких общезначимых документов, как газетные статьи, информационные сообщения, законодательные акты.

Во-вторых, разделение онтологий снижает многозначность описанных слов и выражений.

В-третьих, предполагалось, что существует несоответствие, так называемой, «бытовой» картины мира и научной картины мира. То есть отношения, описанные и правильные в рамках одной онтологии, должны быть изменены в рамках другой онтологии.

И наконец, последнее (по перечислению, но не по важности) эти две онтологии отличаются по способам рассмотрения внешнего мира: онтология РуТез рассматривает мир через призму современного цивилизованного общества: что известно о мире значимому количеству образованных людей современного общества, что важно (воздействует, используется) в существовании современного общества. Онтология в области естественных наук и технологий исключает из рассмотрения аспекты общественного мировосприятия и должна описывать в виде онтологической модели устоявшиеся воззрения современной науки, основываясь на материалах научных публикаций.

Вместе с тем, хотелось бы отметить, что существуют типы текстов, для анализа которых могут понадобиться обе онтологии, работающие одновременно, и поэтому нужно иметь четкое представление об отражении сходных явлений в разных контекстах.

К числу текстов, требующих, как представляется, использования обеих онтологий относятся:

Анализ соответствий между требованиями технического регулирования и описанием производственных процессов;

Документы вида «заявки/отчеты» о научном исследовании,

Инвестиционные заявки, связанные с промышленным внедрением научных исследований.


^ 4.3. Структура онтологий


Оба ресурса: Тезаурус РуТез и Онтология по естественным наукам и технологиям имеют одинаковую структуру. Они являются онтологиями, поскольку описывают понятия внешнего мира и отношения между ними, которые устанавливаются в соответствии с требованием правомочности расширения запроса по иерархии связей при информационном поиске. Оба ресурса принадлежат к особому классу онтологий, так называемым лингвистическим онтологиям (Magnini, Speranza, 2002; Gomez-Perez et al., 2000), поскольку введение понятий в значительной мере мотивируется значениями языковых единиц, относящихся к предметной области ресурса. Далее в этом разделе мы опишем структуру этих ресурсов, ссылаясь на них обобщенным названием РуТез*Онтологии.

В то же время они являются тезаурусами, поскольку каждое понятие связано с набором языковых выражений (слов, терминов, словосочетаний), которыми это понятие может быть выражено в тексте, - такой набор текстовых входов понятий необходим для использования онтологий для автоматической обработки текстов.


Опишем сказанное более подробно.

РуТез*Онтология – это иерархическая сеть понятий. Каждое понятие имеет имя.

Для сопоставления с текстом каждое понятие снабжается набором текстовых выражений («текстовых входов», «терминов»), значения которых соответствует данному понятию. В качестве таких текстовых входов могут выступать однословные существительные, прилагательные, глаголы, именные и глагольные группы. Количество таких текстовых входов понятий может быть достаточно велико, например, превышать 20 единиц. При вводе нового понятия делаются специальные усилия, чтобы максимально подробно перечислить его возможные текстовые входы.

Каждое понятие связывается отношениями с другими понятиями РуТез*Онтологии. Набор отношений РуТез*Онтологии специально подобран для эффективной работы в информационно-поисковых приложениях.


В РуТез*Онтологии имеется четыре основных типа отношения.

Первый тип отношений – родовидовое отношение НИЖЕ-ВЫШЕ, обладает свойством транзитивности и наследования.

Второе тип отношений – отношение ЧАСТЬ-ЦЕЛОЕ. Используется не только для описания физических частей, но и для других внутренних сущностей понятия, таких как свойства или роли для ситуаций. Важным условием при установлении этого отношения является то, что понятия-части должны быть жестко связаны со своим целым, то есть каждый пример понятия-части должен в течение всего времени своего существования являться частью для понятия-целого, и не относиться к чему-либо другому.

Так, например, в РуТез*Онтологиях считается неправильным описывать понятие ДВИГАТЕЛЬ частью понятия АВТОМОБИЛЬ, поскольку двигатели являются частями различных технических устройств, а не только автомобилей. Мы вводим понятие ^ АВТОМОБИЛЬНЫЙ ДВИГАТЕЛЬ, как видовое понятие для понятия ДВИГАТЕЛЬ, и затем устанавливаем отношение ЧАСТЬ между понятием АВТОМОБИЛЬ и понятием АВТОМОБИЛЬНЫЙ ДВИГАТЕЛЬ.

В этих условиях удается выполнить свойство транзитивности введенного таким образом отношения ЧАСТЬ-ЦЕЛОЕ, что очень важно для автоматического вывода в процессе автоматической обработки текстов.

Еще один тип отношения, называемого несимметричной ассоциацией АСЦ2-АСЦ1, связывает два понятия, которые не могут быть связаны выше рассмотренными отношениями, но одно из понятий не существовало бы без существования другого. Например, понятие ЛЕС требует существования понятия ДЕРЕВО (при этом можно было бы ввести как ЧАСТЬ для понятия ЛЕС понятие^ ДЕРЕВО В ЛЕСУ), а понятие АНТИСТАТИК требует существования понятия СТАТИЧЕСКОЕ ЭЛЕКТРИЧЕСТВО.

Последний тип отношений – симметричная ассоциация связывает, например, понятия очень близкие по смыслу, но которые мы не решились склеить в одно понятие.

Отношения НИЖЕ-ВЫШЕ, часть-целое и несимметричная ассоциация являются иерархическими отношениями. Таким образом, на основе свойств иерархичности, транзитивности и наследования для каждого понятия может быть определена совокупность понятий, которые являются для него нижестоящими понятиями по иерархии.


5 Этапы реализации проекта


Основной задачей при создании лингвистической онтологии большого размера силами небольшого коллектива является максимальное использование методов автоматизации, а также фрагментов ранее созданных лингвистических онтологий.


5.1 Автоматический набор терминологии по текстам


Для каждой науки из рассматриваемого списка (математика, физика, химия, биология, геология) были сформированы коллекции документов (от 3000 до 8000 документов, от 50 до 90 Мб). Источником коллекций являлись документы, доступные в Интернет, следующих основных типов:

материалы школьных уроков;

рефераты;

университетские лекции;

материалы специализированных сайтов.


Была произведена обработка специальными процедурами автоматического извлечения терминоподобных словосочетаний, что дало возможность проверки употребимости терминов в материалах, а также нахождения терминов, входящих в состав предметной области.

Для выявления терминов было проведено сопоставление с терминами Общественно-политического тезауруса. Также были применены два алгоритма выделения терминоподобных слов и словосочетаний (Добров и др., 2003).

Первый алгоритм выделяет существительные, прилагательные, согласованные пары и тройки прилагательных и существительных, а также генеративные конструкции (существительное + существительное в родительном падеже и т.п.).

Второй алгоритм может выделять часто повторяющиеся именные группы в несколько слов, в том числе предложные.

При этом многословные термины, словосочетания из тезауруса РуТез могли выступать «зародышами» для формирования более длинных словосочетаний.

Полученные терминоподобные слова и словосочетания упорядочивались по убыванию суммарной частотности и убыванию количества содержащих их документов.


5.2 Автоматизированное формирование первой версии онтологии


Основной целью при формировании первой версии ресурса являлось быстрое получение приближения предметной области. При этом выбор делался в сторону большей избыточности первого приближения, чтобы в дальнейшем минимизировать по возможности поиск и добавление новых терминов.


5.2.1. Отбор новой терминологии

По каждой предметной области были образованы верхние части частотных списков терминоподобных слов (по 10 тысяч) и словосочетаний (по 15 тысяч), которые были направлены на быструю разметку экспертам. Отметим, что нижняя часть списков соответствовала уровню встречаемости в 5-6 документах.

Эксперты должны были в рамках «своей» науки пометить принадлежность к предметной области того или иного термина. Допускалась пометка термина для нескольких предметных областей, но полнота такого рода разметки не требовалась. После окончания этого этапа списки разных экспертов были объединены – получился список из 32 тысяч помеченных слов и словосочетаний.


5.2.2. Использование существующего ресурса

Существующий ресурс – Общественно-политический тезаурус покрывает лексику и терминологию нормативно-правовых актов и материалов СМИ. Поэтому имеет значительное пересечение с терминологией практически любой значимой предметной области.

Для каждой новой предметной области были заданы несколько поня
еще рефераты
Еще работы по разное