Реферат: "Онтологии в Интернет"



Министерство образования Российской Федерации


Ульяновский Государственный Технический Университет


Факультет Информационных Систем и Технологий


Кафедра «Вычислительная техника»


Дисциплина «Инженерия знаний»


Реферат


на тему: ”Онтологии в Интернет”



Выполнил:


Проверил:

студент группы МЭВд-52

Шаров О.Г.

Соснин П.И.



Ульяновск, 2002

Содержание

Введение 3

Три способа превращения данных в знания в Интернет 3

Онтологии и Web 6

Онтологическая поисковая система Jewel для реализации интеллектуального поиска в Интернет- и интранет-сетях. 7

Язык публикации знаний в Internet (KML) 19

Заключение 27

Литература 29
Введение
Всемирная паутина Интернет стремительно "расползается" и "вплетается" буквально во все сферы жизни. Web становится все более мощным и важным источником информации. Средствам обработки данных в сети все труднее и труднее справляться с лавиной информации, уже существующей и добавляемой в сеть ежедневно. Кроме того, данные в Интернет организованы крайне стихийно и не систематично. Кроме серверов, поддерживаемых компаниями, фирмами, университетами и другими официальными организациями, на которых, в основном, представлена тематическая информация, более или менее структурированная, Web "населяют" домашние страницы, соединяющие в себе все что угодно. Так, на одном и том же сайте можно узнать о результатах наблюдений за спутниками Юпитера и о рецепте пиццы. Такая дезорганизованность крайне затрудняет и запутывает процесс поиска нужной информации.. Информационное пространство Web "скроено" и "сшито" именно так, поэтому ничего не остается, как научиться "носить" его как можно эффектней. Для выхода на новый уровень в использовании Интернет, в первую очередь, необходим переход к семантически значимому представлению информации в сети. Работы, представленные на международных конференциях за последние два года, показывают, что мировое сообщество не только уже осознало необходимость, но и активно включилось в процесс реконструирования Web-пространства в пространство знаний. Анализ как реально действующих в Интернет систем, так и исследовательских прототипов, ориентированных на представление информации в виде знаний, позволяет утверждать, что лидирующим направлением для реализации приложений в этой области являются агентные технологии и мультиагентные системы.
^ Три способа превращения данных в знания в Интернет
Машины поиска и извлечения информации, такие как "Yahoo!", "Lycos", "Infoseek", используют механизм поиска по ключевым словам и не учитывают контекст, в котором существует информация. Вот почему результатом работы таких систем могут быть сотни тысяч ссылок. Современные версии поисковых систем ("Metacrawler", "WebSeek" и.т.п.) адресуют запрос пользователя сразу к множеству машин поиска, и составляют индексные мета-каталоги и базы данных. Но так как они остаются в рамках поиска, основанного на ключевых словах, то полученные индексы связывают информацию с терминами, учитывая только актуальный для данного запроса лексический или синтаксический контекст [Luke, et. all, 1996]. Аналогичные претензии можно адресовать и к тематическим каталогам, составленным вручную. Кроме того, что для их создания и сопровождения необходимо слишком много времени, существует диссонанс между критериями классификации понятий автора и пользователей [Luke.,et. all, 1996].

Другой подход к решению проблемы интеллектуализации Интернет заключается в дополнении специальными семантическими тагами стандартного HTML для того, чтобы "внести знания" прямо в страницы. Такие модифицированные HTML-документы несут информацию о взаимосвязях понятий и их семантических атрибутах в HTML-подобном формате, то есть не требуют внутреннего языка представления знаний.

Идея создания расширенного HTML нашла воплощение в таком стандарте, как разработанный в W3С (интернациональный всемирный Web консорциум) язык XML (Extensible Markup Language) [URL1]. XML - язык для разметки синтаксической структуры документов, позволяющий благодаря спецификации синтаксиса, использовать такие документы множеству агентов, для которых данный формат является общим. Для того, чтобы аннотировать документы с помощью XML, разработан формат описания ресурсов RDF (Resource Description Framework) [URL2]. Мета-информация, определяемая форматом RDF, размещается как дополнительная страница или блок внутри каждой web-страницы (элементы web страницы не могут быть аннотированы прямо в тексте исходного документа, а должны быть повторены с дополнительной мета-информацией). Такой способ влечет за собой много трудностей из-за дублирования информации.

В работах [Dobson S.A., Burrill V.A., 1995] и [Loke S.W, Davison A., Sterling L., 1996] также предлагается расширить HTML с целью получения семантических индексов к информации, организованной в виде так называемых Lightweight Deductive Databases, где связи между отдельными страницами определяются гипертекстовыми ссылками с атрибутами. Дедуктивные базы данных являются расширением реляционных за счет применения правил логического программирования для более сложного представления данных [K. Ramamohanarao, J. Harland, 1994].

Sandewall [Sandwall, 1996] предлагает создать Всемирную базу данных (WorldWide Data Base), состоящую из файлов, которые содержат полученные из Интернет небольшие фрагменты документов с описанием содержащихся в них понятий в виде объектов. Объекты представляются на специальном языке и могут включать ссылки на другие объекты, HTML-документы в Интернет или файлы из самой базы данных.

В последнее время серьезное развитие получила другая парадигма, с точки зрения которой Web рассматривается как потенциальная база знаний. Для работы со знаниями в сети нужны специальные методы представления и обработки знаний, интерпретации запросов и т.д. Задача здесь прежде всего в том, чтобы адаптировать методы и средства, разработанные в ИИ для систем, основанных на знаниях, в новую проблемную область. В рамках такого подхода сейчас внимание различных исследователей привлекают онтологии [Guarino, Poli, 1995] как средство построения распределенных и неоднородных систем баз знаний в Интернет. Адекватным средством реализации таких систем являются агентные технологии и мультиагентные системы. По определению [Gruber T. R, 1991] онтология - это спецификация концептуализации, которая состоит из словаря и теории. Онтологии включают абстрактное описание как очень общих, так и специфичных для конкретной предметной области терминов. Вопрос о корректном способе анализа знаний с целью определения терминов остается пока открытым и его обсуждению посвящено множество работ [Chandrasekaran B.,. Josephson J. R,. Benjamins V. R, 1998]. Одной из сильных сторон онтологий являются их потенциальные свойства для решения таких важных задач как разделение знаний и их повторное использование. Это заключение основывается на предположении о том, что если общая схема (представления и использования знаний), - то есть онтология, -явно определена для работающих с ней агентов как общий ресурс, то этот ресурс возможно разделять между агентами и многократно использовать [Fridman Noy, Hafner, 1997].
^ Онтологии и Web
Сегодня перечень проектов, которые в той или иной степени связаны с онтологиями на Web, уходит за горизонт, поэтому здесь остановимся только на самых интересных из них. Проект CYC® создания мульти-контекстной базы знаний и машины вывода, разрабатываемой Cycorp. Основная цель этого гигантского проекта раз и навсегда построить базу знаний всех общих понятий, включающую семантическую структуру терминов, связей между ними, правил, которая будет доступна разнообразным программным средствам [Lenat, 1995].

В рамках проекта (KA)2 (Knowledge Acquisition Initiative) по организации интеллектуального доступа к документам онтология является основой для аннотации WWW - документов. (KA)2 - это открытая инициатива, в рамках которой участники включаются в процесс создания распределенной онтологии и модели извлечения знаний (онтологии предметной области). Одной из целей (KA)2 является трансформация из представления WWW (как базы знаний) в систему, основанную на знаниях [Benjamins, Fensel D., 1998].

Авторы работы [Luke et al., 1997] в проекте SHOE предлагают аннотировать информацию, содержащуюся в HTML-документах, также используя онтологии. В SHOE "владельцы" информации могут сами аннотировать свои документы и расширять конкретную онтологию новыми понятиями. В этой системе центральный администратор онтологий не определен. Как следствие, давая запрос, пользователь может не знать все термины, которые используются для аннотации HTML-документов. Поэтому ответ на запрос может не содержать важную для пользователя информацию.

В проекте Ontobroker [Fensel V. D., et. all, 1998] предлагается организация онтологии с автоматической аннотацией WWW-документов семантической информацией. Основная идея данного проекта - это использование метафоры группы по интересам (newsgroup), чтобы определить группу людей, у которых общий взгляд на понятия и их место в общей онтологии. В отличие от SHOE, в Ontobroker имеется администратор онтологий и клиенты могут узнать все термины онтологий. В SHOE используется дескриптивная логика как базисный формализм для вывода, а Ontobroker использует логику, основанную на фреймах и поддерживает довольно сложный механизм вывода ответа на запрос. Созданный в рамках этого проекта специальный поисковый механизм Ontocrawler поддерживает полную коллекцию всех аннотированных с помощью Ontobroker HTML-страниц.

Как отмечалось выше, в последние несколько лет резко усилился интерес к разработке интеллектуальных поисковых механизмов. Альянс свойств онтологий и систем, основанных на знаниях, в сочетании с текущей задачей интеллектуализации информационного поиска определили привлекательность идеи их использования в этом направлении. Таким образом, в настоящее время методы искусственного интеллекта определяющим образом влияют на развитие средств автоматического извлечения и анализа информации в сети Интернет и рассматриваются как катализатор для возникновения следующего этапа развития поисковых средств.
^ Онтологическая поисковая система Jewel для реализации интеллектуального поиска в Интернет- и интранет-сетях.
Общим для всех систем онтологического аннотирования является то, что в качестве аннотации веб-ресурса выступает специальным образом организованная предметная онтология, которая содержит структурированные знания об аннотированном ресурсе относительно некоторой метаонтологии предметной области. Можно предложить различные способы размещения онтологической информации о ресурсе: включить онтологическое описание в HTML код через введение новых HTML тегов, либо хранить онтологическое описание ресурса в отдельном файле в каком-либо специальном представлении.

Основная задача онтологического подхода состоит в том, чтобы облегчить пользователю поиск информации в большом наборе ресурсов за счет систематизации знаний, создания единой иерархии понятий, унификации терминов и правил интерпретации. Для описания онтологий можно использовать различные языки представления знаний, применяемые, например, в экспертных системах. В данной работе предлагается использовать для составления онтологических описаний фреймово-продукционный способ представления знаний.

Как известно, фреймы — средство описания статических знаний, удобное для описания иерархии абстрактных и конкретных понятий, близкое к объектно-ориентированному подходу . Продукции, определенные над множеством фреймов и их слотов, позволяют описывать динамические знания.

В тоже время, применение фреймово-продукционных языков представления знаний в "чистом" виде недостаточно для организации эффективного онтологического поиска. Это видно, например, из следующего соображения.

Пусть всякое онтологическое описание внедрено только в описываемый этой онтологией ресурс. Мы будем считать ресурс известным, если мы в любой момент имеем доступ к его содержимому и, как следствие, к онтологическому описанию. Предположим, что нам уже известно некоторое множество онтологий, и мы хотим указать поисковой системе, какие еще онтологии мы хотели бы сделать известными. Для этого необходимо указать некоторое правило - поисковый запрос, который отделит искомые онтологии от всех остальных, имеющихся в системе. Однако, в общем случае, отсутствует возможность узнать, какие знания содержатся в онтологии до того, как она стала известной.

Таким образом, для поискового запроса не существует никаких явных связей между онтологиями в фреймово-продукционном представлении, кроме отношения наследования между их фреймами1. Очевидно, остается только возможность сделать запрос следующего типа: "найти все онтологии, фреймы которых унаследованы от данного известного фрейма и значения слотов которых удовлетворяет некоторому условию".

Как видно, запрос состоит из условий, накладываемых на отношение наследования и на значения слотов наследников. Но в тоже время существует опасность, что слот наследника изменил свой первоначальный смысл, так как в общем случае это уже другой фрейм, который может иметь произвольную структуру.

В данной работе предлагается модифицировать фреймовое представление знаний, явно разделив фреймы-образцы и фреймы-экземпляры, введя требование запретить изменять структуру или применять наследование к фреймам-экземплярам. В дальнейшем мы будем называть категорией фрейм-образец, а под концептом будем понимать фрейм-экземпляр. Категория во всем эквивалентна обычному фрейму, кроме того, что значения ее слотов воспринимаются концептами как значения по умолчанию, а концепт соответственно является точной копией своей категории с точностью до значений слотов и безусловных правил, явно присваивающих слоту его значение.

Внедрение подобного подхода позволяет существенно обогатить множество возможных поисковых запросов. Действительно, пусть существует некоторая предметная область и некоторое множество текстовых ресурсов, ее описывающих. Если сосредоточить фактические описания явлений и закономерностей - то есть категорий предметной области в нескольких онтологиях страниц, то появляется возможность искать нужную информацию во множестве страниц посредством поиска онтологий, концепты которых соответствуют требуемым условиям. Теперь условия запроса могут касаться как отношений наследования между категориями или отношений представления между категориями и их концептами, так и условий, накладываемых на значения слотов для концептов известных категорий. В сравнении с предыдущим примером имеется гарантия, что наследники не претерпели никаких метаморфоз, так как концепт нельзя дополнить новыми слотами или продукциями.

Таким образом, открывается возможность разделить поиск информации на два этапа: вначале изучается описание существующих явлений, а затем ведется поиск частных случаев изученных явлений. Это обстоятельство, при условии уникальности используемых имен, дает дополнительное преимущество, состоящее в том, что вводится принудительная унификация понятий в рамках одной предметной области, что исключает возможность двусмысленности поискового запроса.
^ Язык составления онтологических описаний
Для составления онтологических описаний в рамках создания онтогической поисковой системы Jewel была проведена разработка общего языка описания онтологий. В основе предлагаемого языка лежит фреймово-продукционный язык JFMDL из состава инструментария JULIA (Java Universal Library for Intelligent Applications), расширенный согласно вышеописанным положениям.

Язык позволяет производить онтологические описания HTML страниц, используя понятия: категория, условное правило, безусловное правило и концепт. Под онтологией HTML страницы (онтологией части предметной области, описываемой в странице) понимается описание некоторого ресурса, проводимое в терминах общего языка описания онтологий.

В целях повышения эффективности поиска онтологий и непротиворечивости их описания принимаются следующие соглашения:

Каждая онтология HTML страницы предназначена для непосредственного описания той страницы, на которой она находится. Причем в теле страницы может быть определена только одна онтология.

Каждая онтология обладает набором предопределенных свойств:

именем, которое совпадает с физическим местоположением HTML страницы, в теле которой содержится описание онтологии;

списком используемых онтологий (для описания категорий и правил создаваемой онтологии могут применяться категории и правила объявленных используемых онтологий) и их внутренних имен, ассоциированных с ними для удобства;

кратким словесным описанием.

Для описания онтологии используется надмножество стандарта HTML, в котором расширяется стандартный тег

. . .


Теперь любая страница, содержащая информацию о конкретном самолете, может быть дополнена онтологическим описанием, например, следующим образом:


Страница tu-154.html

. . .








Tu-154










. . .


Таким образом, создается возможность для организации предметной онтологии, состоящей из некоторого числа онтологий HTML страниц.
^ Язык поисковых запросов
Для составления поисковых запросов в системе Jewel применяется специализированный язык, состоящий из следующего набора операторов:

Оператор SEARCH имеет следующую форму:

SEARCH

USE 'адрес_1' AS имя_1

. . .

USE 'адрес_N' AS имя_N

^ IMPORT LIBRARY имя_библиотеки_1

. . .

IMPORT LIBRARY имя_библиотеки_M

WHERE "условие"


Под условием понимается логическое выражение, определяющее искомые онтологии. В процессе поиска производится обход всех подходящих запросу онтологий2, и к элементам каждой из них применяется указанное поисковое условие. В качестве результата возвращаются онтологии, для которых условие истинно.

Для задания условия могут использоваться следующие предикаты:

INHERITED(имя_категории) - принимает истинное значение в текущей онтологии, если имеется категория, унаследованная непосредственно от указанной в аргументе. В противном случае предикат принимает ложное значение.

EXTENDS(имя_категории) - принимает истинное значение в текущей онтологии, если имеется категория, унаследованная (возможно не непосредственно) от указанной в аргументе. В противном случае предикат принимает ложное значение.

IMPLEMENTS(имя_категории) - принимает истинное значение в текущей онтологии, если имеется концепт, представленный категорией, указанной в аргументе. В противном случае предикат принимает ложное значение.

Кроме предикатов в условие входят так называемые неявные выражения над концептами. Так, например, выражение (имя_категории.имя_слота > "значение") означает, что выражение будет истинно в случае, если текущая онтология имеет концепт указанной категории, и выражение для его слота истинно (для приведенного примера это означает, что значение, хранимое в слоте концепта, должно быть больше указанного).

Для проверки истинности выражения, при помощи обратного логического вывода, производится вычисление значения слота и последующее сравнение. В случае, если значение слота не вычислимо — выражение признается ложным.

Все выражения и предикаты в условии запроса могут быть связаны логическими операциями AND, OR и NOT.

Оператор EXTRACT имеет следующие три формы:

EXTRACT BASE - возвращает адреса всех зарегистрированных в системе онтологий;

EXTRACT ROOT - возвращает адреса всех зарегистрированных в системе онтологий, которые не используют никаких других онтологий;

EXTRACT ONTOLOGY 'адрес' - возвращает онтологическое описание страницы, зарегистрированной по указанному адресу.


Рассмотрим более подробно процесс поиска информации в предлагаемой поисковой системе. Допустим, что имеется некоторая предметная область, для которой составлены все необходимые онтологические описания. Ставится задача найти страницу, в тексте которой описан некоторый факт. В терминах, введенных в данной работе, для описания явлений используется понятие категории, а для указания частных случаев явлений — концепты. Таким образом, требуется найти страницу, онтология которой содержит концепт некоторой неизвестной категории. Как видно, в общем случае, вначале требуется найти категорию, описывающую нужное явление. Затем требуется отыскать концепт найденной категории, описывающий требуемый факт. Онтология, содержащая найденный концепт, будет онтологией искомой страницы. Общий алгоритм поиска для прелагаемой поисковой системы будет сводиться к следующим действиям:

Определение корня онтологий - именно с коренных онтологий можно начать изучение структуры онтологических описаний в случае, если структура введенной в рассмотрение предметной онтологии неизвестна. Изучение онтологий найденных страниц проводится посредством просмотра с помощью команды EXTRACT ONTOLOGY.

Изучение описаний известных явлений предметной области до тех пор, пока не будет найдена категория, концепт которой может оказаться искомым фактом. При этом поиск новых онтологий ведется преимущественно с применением предикатов типа IMPLEMENTS, INHERITED и EXTENDS к известным категориям.

Определение отличительных особенностей искомого концепта и непосредственный поиск концепта исходя из его отличительных особенностей. Поиск онтологии, очевидно, должен вестись с использованием неявных выражений над категориями.


Приведенный алгоритм легко продемонстрировать на ранее приведенном примере. Выделение коренных онтологий командой EXTRACT ROOT даст в качестве результата адрес онтологии страницы aircrafts.html, так как она не использует в своем описании других онтологий. Страницу самолета Ту-154 легко можно найти по названию самолета:

SEARCH

USE ' aircrafts.html' AS aircrafts

WHERE (@aircrafts~Plane.name == 'Tu-154') ^ AND (IMPLEMENTS(PassengerPlane))


Или зная, например, что искомый самолет дозвуковой и берет на борт до 100 человек:

SEARCH

USE ' aircrafts.html' AS aircraft

WHERE (@aircraft~Plane.type = = 'subsonic')

AND(@aircraft~PassengerPlane.passengers = = 100)


Последний из вышеприведенных примеров наглядно показывает элемент интеллектуальности проводимого поиска, так как информация о том, что самолет Ту-154 дозвуковой, явно нигде не указывалась, а была выведена логически по продукционному правилу, общему для всех концептов, прямо или косвенно представляющих категорию Plane.

Легко заметить, что быстрота и качество поиска существенно зависят от качества составления онтологических описаний. Для предметной онтологии, в которой категории разбросаны по слишком большому числу онтологий страниц, поиск затруднен. Однако очевидно, что для большого объема текстов было бы неправильно сосредоточить все категории в одной онтологии, как это было сделано в вышеприведенном примере. Такой шаг может привести к нарушению смыслового разделения между понятиями и повредить точности и выразительности онтологического описания. Это, в свою очередь, негативно скажется на времени поиска, так как пользователь будет вынужден работать с большим множеством получаемых в качестве ответов страниц, аналогично тому, как это происходит при поиске по ключевым словам в классических поисковых машинах. Для более сложных онтологических систем характерно присутствие трех логических уровней:

Первый уровень - это уровень общих абстракций. Этот слой онтологических описаний объединяет в себе все понятия предметной области и одновременно не проводит никакой конкретизации понятий.

Второй уровень - уровень описания явлений. В этой части онтологического описания указываются конкретные явления, максимально приближенные к реальности.

Третий уровень - предметных концептов, т.е. реализация явлений, описанных во втором уровне.

Для небольших онтологических описаний возможно сращивание первого и второго уровня, как в приведенном примере.

Как легко видеть, в таком случае поиск состоит из двух взаимосвязанных частей: поиск описаний явлений и поиск конкретных реализаций этих явлений.
^ Вопросы реализации
Реализация опытного прототипа системы онтологического поиска Jewel производилась на языке Java. В основу реализации был положен инструментарий JULIA для создания распределенных интеллектуальных систем на основе продукционно-фреймового представления знаний. С использованием технологии JavaCC были разработаны трансляторы с языка онтологического описания веб-ресурса во внутреннее представление JULIA, а также интерпретатор языка поисковых запросов.

В процессе работы системы онтологические описания вручную (при помощи специальных команд языка запросов) или автоматически (при помощи автономного робота) транслируются во внутреннее представление, которое затем сохраняется в виде семейства индексных файлов или в объектной базе данных. Таким образом, множество известных систем онтологий проиндексировано и сохраняется на поисковом сервере в виде множества фрейм-миров.

Для реализации пользовательского интерфейса реализованы утилита администрирования поисковой системы и предоставляющий пользователю возможность формулировать поисковые запросы Java-сервлет. В качестве продолжения работы над проектом предполагается разработка более удобного диалогового интерфейса с возможностью просмотра множества известных системе онтологий категорий и концептов.
^ Перспективы применения и развития
В процессе работы над системой Jewel выявились некоторые возможные пути дальнейшего совершенствования методики онтологического поиска.

Рассмотрим улучшения, которым можно подвергнуть язык запросов. Прежде всего, следует отметить, что возможности языка поисковых запросов могут быть существенно расширены за счет введения возможности поиска не только онтологий, но и их составляющих - категорий и концептов. Это позволит создавать вложенные поисковые запросы, увеличив тем самым выразительность языка.

Кроме того, весьма полезным может оказаться введение в язык возможности поиска множества возможных значений для атрибутов категорий, которые принимаются в ее концептах, поскольку частой является ситуация, когда пользователю точно неизвестны нужные значения слотов для выделения искомых концептов из всех существующих.

Немаловажные изменения можно внести в язык составления онтологических описаний. Очевидным недостатком разработанной системы является отсутствие ее способности к обучению, поэтому полезным может оказаться добавление функций, позволяющих динамически, на этапе выполнения логического вывода, самостоятельно генерировать новые категории и концепты, а также включать их в онтологические описания. Данная функциональная особенность важна для придания системе способности адаптироваться к запросам пользователя и подстраиваться под его интерпретацию онтологического описания, исходя, например, из сопоставления множеств запросов и найденных по ним страниц. Безусловно, для придания системе возможностей самостоятельного совершенствования необходима, прежде всего, обратная связь, дающая системе материалы для анализа результатов своих ответов.

Разработка методов самообучения для поисковой машины может привести к созданию принципиально нового поколения поисковых систем, онтологические описания ресурсов которых совершенствуются в жизненном цикле такой системы без прямого участия человека.

Нельзя обойти вниманием и уже наметившуюся тенденцию к созданию программных средств автоматической генерации онтологических описаний. В основе данных разработок лежит анализ естественного языка. К сожалению, особенно революционных достижений в данной области обнаружить не удается, но наметилась объективная тенденция к росту возможностей таких систем. Прогресс в области естественно-языкового анализа в будущем неизбежно затронет и языки поисковых запросов, что будет приближать разработчиков к созданию более интеллектуальных поисковых систем.
^ Язык публикации знаний в Internet (KML) Введение
В данной работе под семантикой мы будем понимать отношение между языковыми выражениями (словами, сочетаниями, текстами), а также совокупность всех таких отношений c различными ролями и атрибутами.

Эти отношения состоят в том, что языковые выражения (слова, словосочетания, предложения, тексты) обозначают то, что есть в мире, —предметы, качества (или свойства), действия, способы совершения действий, последовательности действий, отношения, алгоритмы.

Термин "семантика" образован от греческого корня, связанного с идеей "обозначения" (ср. semantikos "обозначающий"). Именно такой смысл мы и будем вкладывать в корень слова семантика: обозначение свойств, ролей и связей. Причём, мы будем рассматривать семантику разных уровней: семантика слов, семантика предложений, семантика единиц знаний, семантика базы знаний.

Первые две ``семантики'' мы объединим в семантику языка, а две другие в семантику знаний. Под семантикой языка мы понимаем, в частности, связи между словами: ``синонимичность'', ``состоит из'', ``является частным случаем'', и роли слов в предложении: ``объект действующий'', ``суть действия``, ``описание действующего объекта'', ``описание действия'', ``объект действия'', а также роли предложений и связи между предложениями.

Семантика знаний —это связи между единицами знаний: ``основывается на'' (background links), ``связано по смыслу'' (related links), ``является продолжением'', ``предшествует'' (sequence links), и роли единицы знаний: ``аннотация'', ``теорема'', ``определение понятия'', ``доказательство утверждения'', и т.д.

В действительности ролей и связей гораздо больше, они могут быть другие, в зависимости от уровня семантики и её назначения.

Компьютерная лингвистика —направление в прикладной лингвистике, ориентированное на использование компьютерных инструментов v- программ, компьютерных технологий организации и обработки данных v- для моделирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д.

Одно из направлений компьютерной лингвистики занимается созданием машинных языков, позволяющих выделять семантику различных уровней и назначений.

В данной работе проанализирована проблема формализации семантики различных уровней и задача об автоматическом выделении (или ``маркапировании'') этой семантики. Рассмотрена иерархия языков и различные языковые метапереходы.

Markup —выделить, отметить, то есть чётко прописать роли и свойства объектов, а также роли и свойства связей.

Задача об автоматическом маркапировании семантики является, по сути, задачей о том, как научить компьютер естественному языку, то есть научить видеть семантику слов, предложений, текстов и единиц знаний. Эта задача непосредственно связана с вопросом о том, каким образом человек, зная слова и грамматические правила какого-либо естественного языка, оказывается способным передавать с их помощью разнообразную информацию и понимать, какую информацию о мире заключает в себе различные высказывания (текст, набор текстов). Можно сказать, что это задача о том, как человек выделяет смысл из текста, как определяет о чем данный текст и как классифицирует тексты по тематикам. Этими вопросами занимается наука лингвистическая семантика.

Прежде, чем ставить задачу об автоматической разметке семантики, необходимо создать базовую схему языков, связанных и иерархически выстроенных. Этой первостепенной задаче посвящена большая часть работы —формализации семантики языка и семантике знания.

Далее рассматривается семантика знания. Там также обозначены основные проблемы индустрии знаний и предложено несколько идей по преодолению этих проблем. Одно из решения —инструмент выделения семантики знаний язык знаний KML, который позволяет создавать базы знаний, которые понятны для компьютера (Computer Readable). Компьютер может эффективно помогать человеку при работе с такими базами знаний, поскольку он сам ``видит'' структуру знаний, связи между знаниями и роли различных элементов знаний.
^ Семантика Знаний
Базовой идеей проекта Semantic Web является создания языков понимаемых как машинами, так и людьми. То есть не просто создавать большие архивы документов, а делать их структурированными и связанными друг с другом.
^ Проблемы современных Баз Знаний и их решения
Индустрия знаний ``Путешествия вглубь науки'', о которых писал Станислав Лем, сейчас стали неотъемлемой частью научной деятельности всякого ученого. Открытия в области естественных наук, техники, архивы результатов исследований предстают перед ним необъятным информационным потоком. Так получается, что современный ученый вынужден тратить большую часть своего времени на ``путешествия вглубь науки'', то есть на изучение и анализ чужих работ. Изобретение велосипедов —это ещё не самая большая беда. Изобрести велосипед заново иногда проще, чем найти описание его конструкции в архиве. Есть другая опасность, а именно то, что ученые, занимающиеся вроде бы одной проблемой, вдруг обнаруживают, что они не понимают друг друга, потому что выросли в разных научных школах.

Первый шаг к решению проблемы очевиден —публикация знаний в Интернет, создание открытых Интернет конференций, открытых международных архивов статей и т.п. Бумажная индустрия знаний не справляется со своей задачей, а электронная индустрия знаний потенциально содержит больше возможностей для хран
еще рефераты
Еще работы по разное