Реферат: «Побудова мережі Інтернет в рамках концепції Semantic Web»

Semantic Web как новая модель информационного пространства Интернет

Міністерство освіти і науки України

Житомирський державний університет імені Івана Франка


Курсова робота

на тему:


«Побудова мережі Інтернет в

рамках концепції Semantic Web»


Студента 36 групи

Абрамовича Ігоря


Житомир 2010

Зміст

Вступ.....................................................................................................3

1. Поняття Semantic Web…………………………….……..………..4

Структура базової моделі Semantic Web

1.1 URI - універсальний ідентифікатор ресурсів………......8

1.2 Розширювана мова розмітки (XML)….....................…...8

1.3 Загальна схема опису ресурсів RDF…………………….9

1.4 Метадані………………………………………….…...….10

1.5 RDF Schema …….…….....................................................11

1.6 Онтології ………………………………………………...13

1.7 Мови запитів до RDF сховищ .........................................14

1.8 Принцип "логічного висновку".......................................15

1.9 Агенти та сервіси .............................................................16

1.10 Практична реалізація Semantic Web .............................21

2. Представлення знань для Semantic Web…………..…………….26

3.Linked Data в середовищі Semantic Web…..…….…………….....29

4. Проект Linked Open Data та Web of Data.....................................37

Висновок..............................................................................................43

Список використаної літератури.......................................................44

Вступ

Однією з причин підвищеного інтересу до проекту Semantic Web є практична зацікавленість у поліпшенні якості пошуку у Веб. Дослідження з цієї проблеми ведуться в різних напрямках і дають різноманітні результати у вигляді нових пошукових систем. Такі системи, як Swoogle, дозволяють лише виконувати пошук онтологій за ключовими словами. Але такий сервіс є дуже корисним для розробників семантичних систем і онтологій, хоча він і не розрахований на простого користувача. Джерелами інформації в них служать набори RDF-даних, включаючи дані, пов’язані в рамках проекту Linked Open Data, і мікроформати.

Можна відзначити й інші пошукові системи Semantic Web, багато з яких знаходяться на стадії бета-тестування, тому оцінити їх можливості складно. Деякі системи йдуть по шляху «поглиблення у Веб», інші – більш прискіпливо розвивають алгоритми інтелектуального аналізу та використовують різноманітні джерела інформації про документи, які знаходяться «поза документом» у Веб. Розвиток технологій інформаційного пошуку призвів до інтенсивного використання мета-інформаційно-пошукових систем; багатоагентних інформаційно-пошукових систем; систем, побудованих на реалізації онтологічних, мовних та управлінських угод і т.п. Більшість пошукових систем йдуть по шляху розвитку персоналізації пошуку, тобто розпізнавання та задоволення потреб користувача. Традиційні пошукові системи стають все більш точними та об’ємними, однак вони не можуть перевершити інтелект людини. Вони можуть лише порівнювати слова, а не зміст ідеї, яка обговорюються ними. Нові технології пошукових систем 3-го покоління ще знаходяться в стадії формування, але вже зараз вони дають позитивні результати. Нові пошукові системи можуть допомогти зробити пошук більш значущим, суб’єктивним і прив’язаним до задач (task-based), що стоять перед користувачем. Таким чином, розвиток пошукових систем йде по шляху, метою якого є задоволення потреб індивідуального користувача, з його перевагами, характером, рівнем підготовки , знань тощо.

Мета роботи полягає у дослідженні концепції Semantic Web, побудови семантики в загальному, принцип роботи семантичної системи і її зв’язків.

Об’єктом дослідження є проект Semantic Web, його задача і проблеми. Предметом дослідження у цій роботі є вивчення і розгляд уже реалізованих моделей, побудованих на платформі семантичної мережі.

^ 1.Поняття Semantic Web

Феномен World Wide Web став можливий тільки завдяки практичному використанню набору широко поширених стандартів на різних рівнях, що забезпечило інтероперабельність даних. Сучасна тенденція розвитку Інтернету полягає в переході від документів, "що читаються комп'ютером" (machine readable) до документів, які "комп'ютер розуміє" (machine understandable).

Web розроблявся, як інформаційний простір, корисний не тільки для комунікації людини з людиною, але і як простір, в якому зможуть ефективно співпрацювати і комп'ютери. Одне з головних перешкод на шляху до цього полягає в тому, що більша частина інформації в Web призначена для її розуміння людиною. Очевидно, що така структура даних не може бути зрозумілою для веб-робота, що її проглядає. Підхід Semantic Web базується на розробці мов, для вираження інформації у формі, придатній для машинної обробки.

Ідея Semantic Web була запропонована в 1998 році Тімом Бернерс-Лі (Tim Berners-Lee), який є винахідником WWW, URI, HTTP і HTML.

Semantic Web являє собою мережу інформаційних вузлів, які пов'язані один з одним таким чином, щоб наявна інформація могла легко оброблятися комп'ютером. Його можна розглядати як ефективний спосіб представлення даних у Всесвітній павутині, або як глобально пов'язану базу даних. Даний проект пропонує реалізацію повної системи з автоматизованого створення та зберігання семантичного ядра контенту, наданого у Всесвітній павутині.

Проект Semantic Web - це спроба зібрати всі сталі ідеї і зробити так, щоб вони змогли працювати разом всередині мережі Інтернет. Для досягнення цієї мети використовуються стандарти, які розроблені не тільки консорціумом W3C, а й іншими організаціями. Мета проекту - дозволити взаємодіяти цим стандартам між собою, всередині децентралізованої системи, без втручання людини.

Проект Semantic Web [1], започаткований у 2001 році, на даний момент знаходиться в стадії активної розробки, намагається інтегрувати в себе всі вже наявні на даний момент підходи, з метою створити дійсно універсальний засіб семантичного пошуку інформації [2, 3]. Велика увага приділяється архітектурі та моделі розподіленого середовища [4], архітектурі метаданих [5 - 8]. Як сказано у визначенні, яке надане на домашній сторінці проекту - «Semantic Web є абстрактним поданням даних у Всесвітній павутині, яке базується на стандартах RDF та інших стандартах, які мають поширення. Проект розробляється Консорціумом W3C у співдружності з великою кількістю дослідників, вчених і промислових партнерів »[9].

«Semantic Web - це розширення поточного Web, в якому інформація надається з добре певним значенням, яке краще дозволить комп'ютерам і людям працювати разом. … Його ідея в тому, щоб мати дані в Web, визначені і пов'язані між собою таким чином, щоб їх можна було використовувати для більш ефективного дослідження, автоматизації, інтеграції та повторного використання в різних додатках ... ці дані можуть бути загальнодоступними і обробленими, автоматичними засобами так само, як і людьми »[2].

У рамках даного проекту задіяні такі передові технології, як агентно-орієнтовний підхід у програмуванні [10] , онтології [15, 16], XML [ 17 - 19], RDF [20 - 22], та інші. В даний час поширюється використання Web-агентів (у спрощеному вигляді веб-сервісів), які розробляються як для окремих завдань, так і для створення ядра Semantic Web [23 - 28 ].

Як зазначив професор Джон Сова, - Semantic Web - багато-дисциплінарна тема, яка об'єднує теорії та методи трьох областей:

логіка - формальні структури і правила логічного висновку;

онтології - опис типів сутностей, які відносяться до предметної області;

теорія моделей.

Інтернет - це мережа комп'ютерів, об'єднаних каналами, які використовують протоколи (TCP / IP) для зв'язку між собою. Web - це мережа сайтів, які використовують гіперпосилання для переходів між сторінками [29]. Традиційний Web базується на мові розмітки документів HTML. HTML-сторінка описує форму подання інформації в Web-браузері, а ця мова важко піддається автоматичному змістовному аналізу. Автоматизувати навіть такі тривіальні завдання, як пошук людей, проектів, програм в Інтернеті - неможливо. Наступний етап розвитку Інтернет - Semantic Web - представляє собою перехід на новий рівень представлення даних - рівень знань та автоматизованої обробки. Технологія Semantic Web дозволить комп'ютеру інтерпретувати інформацію, представлену в Web, нарівні з людьми, для чого й розроблена графова модель опису ресурсів RDF (Resource Description Framework).

У загальному вигляді Semantic Web (за Тіму Бернерс-Лі) - це:

інтероперабельність даних між програмними додатками та організаціями;

набір інтероперабельних стандартів для обміну знаннями;

архітектура для взаємопов'язаних спільнот та словників [30].

Архітектура Semantic Web

З точки зору архітектури Semantic Web можна розглядати, як три яруси (мал. 1):

базис, який складається з унікальної глобальної ідентифікації ресурсу, метаданих для
декларування фактів про ресурси, і спільної мови для вираження метаданих і
знань, що реалізовані за допомогою онтологій, для загальнодоступного розуміння і загального словника метаданих, і правил для додавання нових метаданих та знань; базовий сервіс, наприклад, логічний висновок і запити до метаданих, і онтологія, роз'яснення таких висновків, управління довірою, агенти, пошукові системи, онтології; сервіси додатків, наприклад сервіс агентства подорожей.



Рис. Мал.1. 1. Три яруси мережі Semantic Web

Технології, які задіяні у розробці Semantic Web:

Семантичний пошук;

Питально-відповідні системи;

Агенти;

Об'єднання знань (інтеграція баз даних);

Проникливі обчислення [29].

У 1998 році Тім Бернерс-Лі запропонував наступний логічний план побудови Semantic Web [31]:

1. 1. Синтаксис для представлення знань, який використовує посилання на онтології (RDF);

2. 2. Мова опису онтологій (ОWL);

3. 3. Мова опису веб-сервісів (WSDL, OWL-S);

4. 4. Інструменти читання / розробки документів Semantic Web (Jena, Haystack, Protege);

5. 5. Мова запитів до знань, які записані в RDF (SPARQL);

6. 6. Логічний висновок знань (знаходиться на етапі обговорення);

7. 7. семантична пошукова система (наприклад, SHOE).

Базова модель Semantic Web (пиріг Тіма) в редакції 2006 показана на мал.2 [32].




Мал 2. Базова модель Semantic Web в редакції 2006

Фундаментальними основами Semantic Web є:

графова модель представлення на пів структурованих даних (OEM, Lore);

формальна логіка (логіка першого порядку, бази знань, фрейми);

архітектура WWW (URI / IRI, Unicode, XML, HTTP);

криптографія з відкритим ключем.

Розглянемо структуру базової моделі Semantic Web більш детально в наступних пунктах.

^ 1.1 URI – універсальний ідентифікатор ресурсів

В Web для ідентифікації елементів використовуються "Уніфіковані ідентифікатори ресурсів", або скорочено URI (Uniform Resource Identifier). URI можна присвоїти до чого завгодно, і якщо ця сутність має URI, то про неї можна говорити, що вона знаходиться "в Web": це може бути людина, книга, абстрактна концепція, тобто все, що має назву.

URI є базисом Web. «URI - це компактний рядок символів, який використовується для ідентифікації абстрактних або фізичних ресурсів» [33].

Однією з форм URI є URL (Uniform Resource Locator), уніфікований покажчик ресурсу. URL - це адреса, за якою завантажується Web-сторінка.

Також необхідно вказати, що в початковій базової моделі в нижньому ярусі, було вказано ще й базове кодування – тобто, загальний для всіх принцип кодування всіх можливих
символів багатьох мов - кодова таблиця UNICODE.

За синтаксисом URI стежить комітет IETF. Документ, який опублікований цим комітетом RFC 2396, є спільною специфікацією URI. Консорціум W3C підтримує список схем URI.

У 2005 році на зміну URI був запропонований інтернаціоналізувати ідентифікатор ресурсу - Internationalized Resource Identifiers (IRI), що ідентифікує абстрактний або фізичний ресурс будь-якою мовою світу. URI можуть містити тільки латинські символи та знаки пунктуації з набору символів US-ASCII (в цілому близько 60 символів).
Для забезпечення принципів інтернаціоналізму, збереження «читабельності» для людини, в IRI було запропоновано, що ці ідентифікатори можуть містити будь-які
символи Юнікоду (Unicode/ISO10646) у чистому вигляді, без будь-якого кодування. IRI не обмежують права інших мов і ведуть до більш високого ступеня рівноправності
користувачів Інтернету. У майбутньому ідентифікатори IRI покликані замінити URI.

Зазвичай посилання URI є відносною для будь-якого документа, в якому вона знайдена. Якщо, наприклад, проглядається документ з базовим URI http://exslt.org/math/min/math.min.template.xsl, і в ньому виявляється URI-посилання .. / .. / random / random.xml, то вона призведе до даного документу з адресою http://exslt.org/random/random.xml. У форматі HTML є можливість винести базовий елемент в заголовок документа, щоб перекрити базовий URI. Базова специфікація XML (XML Base) забезпечує еквівалентну форму в XML.


^ 1.2. Розширювана мова розмітки (XML)

XML [34] (eXtensible Markup Language) являє собою дуже простий і при цьому потужний, і гнучкий текстовий формат, для опису документів довільної структури. XML був розроблений і затверджений в якості стандарту в ProductID в 1998 р Консорціумом W3C, для спрощення реалізації, а також для забезпечення інтероперабельності між SGML і HTML. Він є підкласом мови SGML, однак більш простий для розуміння і обробки.

Опції XML:

Подання синтаксису для інших мов розмітки;

Семантична розмітка Web-сторінок. XML-представлення може використовуватися на Web-сторінці разом з таблицею стилів XSL, що визначає коректний вивід на екран різних елементів;

Єдиний формат обміну даних. XML-представлення може передаватися між двома застосуваннями, як об'єкт даних.

Мова XML дозволяє кожному створювати свій власний формат документів і потім писати документи в цьому форматі. Ці формати документів можуть включати розмітку,
яка уточнює зміст контенту документа. Документ з розміткою може "читатися" комп'ютером.

XML і RDF - сучасні Internet-стандарти, які служать для забезпечення семантичної інтероперабельності в Web. При цьому XML піднімає питання, пов'язані тільки зі структурою документів. RDF більше пристосований для забезпечення семантичної інтероперабельності, оскільки пропонує модель даних, яку можна розширити таким чином, щоб вона охоплювала більш досконалі методики подання онтології.


^ 1.3. Загальна схема опису ресурсів RDF

Для опису предметної області ресурсів запропонований стандарт RDF (Resource Description Framework) [35 - 42], прийнятий у 1999 році консорціумом W3C і підтриманий багатьма провідними виробниками ПЗ, і постачальниками контенту. Початкове призначення RDF було в описі XML-ресурсів з різних точок зору. RDF представляє собою модель опису метаданих. Ця мова використовує XML-синтаксис.

У той час, як модель даних XML є графом з позначеними вершинами і не позначеними дугами (тобто без зв'язків), модель даних RDF є графом з позначеними, як вершинами, так і дугами, що дозволяє визначати зв'язки між сутностями.

Модель Resource Description Framework має мету: стандартизувати визначення та використання метаданих, які описують ресурси Web. Однак, RDF також добре підходить і для представлення даних [43].

Стандарт RDF (Resource Description Framework) включає дві основні частини - власне спосіб опису ресурсів, а також спосіб завдання схем, за якими ресурс описується.

Перша частина RDF [44] визначає просту модель для опису об'єкта, який розглядається, як ресурс, як зв'язок між ресурсами в термінах, найменованих властивостей і значень.

Друга (RDF Schema - RDFS) [45, 46] служить для завдання структури предметної області та аналогічно - діаграмі класів в UML.

На RDF можна описувати, як структуру ресурсу, так і пов'язану з ним предметну область.

RDF описує ресурси у вигляді орієнтованого розміченого графа - кожен ресурс може мати властивості, які в свою чергу, також можуть бути ресурсами або їх колекціями.

Базовий будівельний блок у RDF - це трійка об’єктів «об'єкт - атрибут - значення», який часто записують у вигляді A (O, V), тобто «Об'єкт O має атрибут A зі значенням V». Такий зв'язок можна також представити, як ребро з міткою A, яке об'єднує два вузли, O і V: [O] - A -> [V]. Така нотація досить корисна, оскільки RDF дозволяє міняти місцями об'єкти та значення. Таким чином, кожен об'єкт може грати роль значення, яке в графічному представленні відповідає ланцюжку з двох ребер з мітками.

Крім усього вищезгаданого, RDF допускає форму подання, в якій будь-який вираз RDF в трійці може бути об'єктом або значенням, тобто графи можуть бути,
як вкладеними, так і лінійними. В Web це дозволено, наприклад, висловлювати сумнів або згоду з виразами, створеними іншими людьми.

Головна мета RDF - запропонувати базову модель даних «об'єкт - атрибут - значення» для метаданих. Окрім цієї семантики, що описана в стандарті лише неформально, RDF не містить будь-яких чітких правил, орієнтованих на моделювання даних. Також, як XML Schema використовується для визначення словника, RDF Schema дозволяє розробникам визначати конкретний словник для даних RDF (такий, як authorOf) і вказувати види об'єктів, до яких можуть застосовуватися ці атрибути. Іншими словами, механізм RDF Schema надає базову систему типів для моделей RDF.

Таким чином, RDF надає можливість формулювати твердження у вигляді, придатному для обробки комп'ютером і це є основою Semantic Web.

Метадані – це дані,призначені для ідентифікації, опису або локалізації інформаційних ресурсів, не залежно від фізичної природи ресурсу. А RDF – одна із стандартизованих форм представлення цих метаданих.


^ 1.4. Метаданные Метадані

У базовій моделі Semantic Web, представленої вище, запропонованої Тімом Бернерс-Лі, явно не виділено наявність засобів опису метаданихТим не менш, у своїх роботах, наприклад, [30, 31], а також у роботах інших вчених вказується на важливість включення в концепцію Semantic Web поняття метаданих.

Метадані це дані про дані. Більш точно, це дані, призначені для ідентифікації, опису або локалізації (місця розташування) інформаційних ресурсів, не залежно від фізичної природи ресурсу.

Було розроблено безліч схем опису метаданих, серед яких слід згадати наступні:

Topic Maps (XMT) [47] - стандарт ISO (ISO / IEC 13250:2003) для представлення та обміну знаннями з точки зору пошуку інформації.

Text Encoding Initiative (TEI) [48] - міжнародний проект з розробки нормативів для розмітки (marking up) електронних текстів, таких як романи, пьєси, вірші; головним чином для підтримки досліджень у гуманітарній сфері.

Metadata Encoding and Transmission Standard (METS) [49] - стандарт кодування і передачі метаданих, був розроблений для задоволення потреби у стандартній структурі даних для опису складних цифрових бібліотечних об'єктів.

Metadata Object Description Schema (MODS) [50] - схема метаданих опису об'єктів, яка була виведена з MARC 21, і призначена для перенесення відібраних даних з існуючих записів метаданих MARC 21 або для створення оригінальної запису опису ресурсу.

Encoded Archival Description (EAD) [51] - закодований архівний опис, був розроблений, як спосіб розмітки даних, які містяться в пошукових коштах, для того, щоб вони знаходилися й показувалися в оперативному режимі.

Learning Object Metadata (LOM) [52] - стандарт IEEE 1484.12.1-2002 метаданих об'єктів навчального процесу для повторного використання ресурсів навчального характеру, таких, як: комп'ютерне та дистанційе навчання.

Online Information Exchange (ONIX) [53] - міжнародний стандарт схеми метаданих, який розроблений видавцями книжкової промисловості Сполучених Штатів і Європи.

Однак, базовими для Semantic Web в даний момент визнаються стандарти Dublin Core, FOAF, SIOC і DOAP [54].

FOAF (Friand-Of-A-Friend) [55 – 57] – це формат машинно-оброблюваних сторінок, що описують персональну інформацію про людей і їх діяльності (фотографії, календарі та інше) у форматі XML.

SIOC (Semantically-Interlinked Online Communities) [58] – документи, що описують онлайн-спільноти. SIOC забезпечує взаємозв'язок таких засобів обговорення інформації, як блоги, форуми і поштові розсилки, між собою.

Description of a Project Description of a Project (DOAP) [59] - документи, що описують в мережі проекти з відкритим вихідним кодом.

Серед цих стандартів виділяється Dublin Core [60], як один з базових стандартів для представлення даних про інформаційні ресурси в Semantic Web. Dublin Core [61, 62] - набір елементів (властивостей) для опису документів, який був розроблений в березні 1995 року. Мета Dublin Core - забезпечення мінімального набору елементів опису, які сприяють впровадженню опису та автоматичної індексації документоподібних мережевих об'єктів за принципом, подібного карткам бібліотечного каталогу. Набір метаданих Dublin Core призначався для використання засобами дослідження ресурсів Інтернету, такими, як веб-кроулери пошукових систем, а також передбачалося, щоб Dublin Core був досить простим набором для розуміння і використання широким колом авторів і випадкових публікаторів, які розміщують інформацію в Інтернеті. Елементи Dublin Core широко використовуються в документуванні Інтернет-ресурсів. На даний момент елементи Dublin Core визначені в Dublin Core Metadata Element Set, Version 1.1: Reference Description [63].

Розширювати сам набір елементів можна, як самостійно, так і з використанням вже наявних стандартів. Наприклад, для опису людей і організацій (які виступають як елементи метаданих Dublin Core: Creator, Publisher або Contributor) можна застосувати стандарт для електронних бізнес-карт (vCard [64]). Загальні міркування з цього приводу даються в [65], а конкретна пропозиція надається в [66 - 68].

Як наголошується в офіційному описі RDF, метадані можуть бути вбудованими (embedded) в сам ресурс, наприклад, в HTML сторінки [69] або документи, наприклад, MsWord (це найпростіший підхід для опису сторінок), а можуть зберігатися і оновлюватися незалежно від ресурсів. Багато хто з виробників програмного забезпечення вже випускають ряд продуктів, які автоматично формують деякий невеликий блок RDF-опису, всередині документа. Другий підхід є більш універсальним, так, як в цьому випадку метадані можуть бути створені для будь-якого ресурсу. В даний час вже розпочато проект на основі Open Directory [70] (пошукова система Google) з автоматичним створенням репозиторії RDF-описів ресурсів Інтернет.

У разі розміщення метаданих окремо від ресурсу, самі метадані переважно зберігаються (і передаються) у форматі XML. При цьому максимально використовуються можливості моделі RDF та забезпечується вільний обмін інформацією (interoperability). Обмін метаданими зводиться до пересилання RDF / XML-файлів (тобто текстових файлів у форматі XML або просто посилань на ці файли), тобто може бути повністю автоматизований.

RDF Schema слугує для метаданих тим, що вона може представити конкретні дані(метадані) в RDF форматі, уже згідно з RDF Schema .


^ 1.5 RDF Schema

Першим "пластом" Semantic Web над тільки, що обговорених синтаксисом, є проста модель типізації даних. Схема і онтологія - це кошти для опису змісту і зв'язку між термами.

На основі RDF 23 січня 2003 був запропонований робочий проект RDF Vocabulary Description Language 1.0: RDF Schema [71]. Схема RDF була розроблена, як проста модель типізації даних для RDF. Як вказується в документі, RDF є мовою загального застосування для подання інформації в Інтернет. Дана специфікація описує як використовувати RDF для опису RDF-словників. Вона визначає базовий словник, призначений для цих цілей і прийняті угоди, які можуть бути використані при створенні додатків Semantic Web для підтримки більш складних словників RDF-описів. Мова опису словника RDF визначає класи і властивості, які можуть бути використані для опису інших класів і властивостей, а також робити деякі більш складні речі, такі, як створення діапазонів і областей для властивостей.

Три найбільш важливих поняття, які дає нам RDF і схема RDF - це "Ресурс" (rdfs: Resource), "Клас" (rdfs: Class) і "Властивість" (rdfs: Property). Ці поняття є "класами" в тому розумінні, що цим класам можуть належати терміни.

Як вже було зазначено, RDF Schema визначається в термінах базової інформаційної моделі RDF - структури графа, який описує ресурси і властивості. Всі словники RDF використовують деяку базову структуру: вони описують класи ресурсів і типи зв'язків між ресурсами. Ця спільність дозволяє різнорідні словники, створені для машинної обробки, і відповідає вимогам, щодо створення метаданих, в яких твердження можуть бути отримані з безлічі різнорідних децентралізованих словників, створених різними спільнотами за різними принципами і різними методами.

Опис за допомогою RDF не обмежується тільки описом документів Інтернет. Цей стандарт досить універсальний і гнучкий для того, щоб описувати більшість типів структурованих даних. Наприклад, в RDF природно виражаються діаграмами сутній зв'язки, які широко застосовувані для проектування баз даних. Опис семантики ресурсу на RDF може бути як «зовнішнім», коли описується ресурс в цілому, так і «внутрішнім», коли описується внутрішня структура ресурсу - будь-то база даних, XML-документ, або цілий сайт.

Важливою особливістю стандарту RDF, який лежить в основі XML, є розширюваність.

На RDF можна задати структуру опису джерела, використовуючи і розширюючи вбудовані поняття RDF-схем, такі як класи, властивості, типи, колекції. Модель схеми RDF включає спадкування; успадковуватися можуть як класи, так і властивості.

Крім опису структури, RDF дозволяє оперувати твердженнями. Вираз «ресурс R1, як властивість P має ресурс R2» можна проінтерпретувати і як предикат P (R1, R2), а потім використовувати це твердження як об'єкт інших тверджень. Така інтерпретація дозволяє описувати, з допомогою RDF, концептуальну інформацію.

Таким чином, RDF цілком підходить на роль універсальної мови опису семантики ресурсів і взаємозв'язків між ними.

Однак, як стверджують самі автори стандарту, RDF має й ряд відсутніх властивостей, які вказують як наступні:

неможливість вказати потужність множини значень властивості, наприклад, що «Людина має тільки одного біологічного батька»;

неможливість вказати того, що подана властивість (наприклад, hasAncestor - має предка, прототип) є транзитивна, наприклад, що «якщо A hasAncestor B, і B hasAncestor C, тоді A hasAncestor C»;

неможливість вказівки того, що два різних класи, визначені у різних схемах, фактично представляють одне і те ж поняття;

неможливість вказівки того, що два різних примірника (instances), визначені окремо, фактично представляють один і той самий суб'єкт;

неможливість визначення нових класів у термінах операцій (наприклад, об'єднання і перетин) над іншими класами.

Найбільш розвиненою мовою представлення онтологій в даний час є OWL (Web Ontology Language), яка розширює можливості XML, RDF, і RDF Schema. Онтології грунтуються на математичному апараті формальної логіки (descriptive logic, DL)- мала підмножина, якого охоплена RDF-схемою


1.6. Онтології

Онтології, в загальному вигляді, визначаються, як спільно використовувані формальні концепції конкретних предметних областей, вони дають загальне уявлення про поняття, інформацією, з яких, можуть обмінюватися люди та програми. Вони дозволяють скласти в концепцію домен фіксуванням сутностей і зв'язків у домені. Вказівка, в яких зв'язках бере участь сутність, частково дозволяє зрозуміти і її значення, оскільки це надає можливість бачити, де дана сутність входить у відносини з іншим доменом.

Онтології грунтуються на математичному апараті формальної логіки (descriptive logic, DL), мале підмножина, якого охоплена RDF-схемою. DL є підмножиною логіки першого порядку, яке обчислюваних.

Додаткові можливості, вище зазначені, в додатку до наявних в RDF, є метою онтологічних мов, таких, як DAML + OIL [72, 73] і OWL [74, 75]. Дані дві мови засновані на RDF і RDF Schema. Мета даних мов - забезпечення ресурсів додаткової машинно-оброблюваної семантикою, тобто вони спрямовані на забезпечення машинного подання ресурсів у формі, який більш відповідає їх оригіналу з реального світу.

Розмітка документів Semantic Web, за допомогою онтологічних термінів, дозволить виробляти автоматичну обробку їх контенту. Таким чином, онтології визначаються, як ключова технологія для розвитку Semantic Web.

Онтології в змозі зіграти критично важливу роль в організації обробки знань на базі Web, їх загального використання та їх обміну між додатками.

Мова OWL. Найбільш розвиненою мовою представлення онтологій в даний час є OWL (Web Ontology Language), яка розширює можливості XML, RDF, і RDF Schema. Ця мова заснована на DAML + OIL. Проблеми, які виникли в DAML + OIL, були викликані постійною зміною ядра специфікацій RDF, на якому заснований DAML + OIL.

Як вказується в основному робочому проекті, OWL майже повністю схожий на DAML + OIL. Основні й істотні відмінності від DAML + OIL полягають у наступному:

усунення деяких обмежень;

здатність прямо вказувати, що властивість може бути симетричною;

відміна деяких невикористовуваних конструкцій DAML + OIL, особливо обмеження з додатковими компонентами.

Існує також кілька незначних розбіжностей, які включають в себе деякі зміни імен деяких конструкцій, однак основна мета, яка ставилася при створенні OWL, полягала в тому, щоб максимально коректно зберегти імена DAML + OIL.

Онтологія OWL є послідовністю аксіом і фактів з додаванням посилань на інші онтології, які вважаються включеними в онтологію. Онтології OWL є Web-документами і на них можна посилатися. Онтології також мають не пов'язану з логікою компоненту (поки ще не визначену), що може бути використана для запису авторства, і інша не пов'язана з логікою інформація, асоційована з онтологією. Фактично це словник, який розширює набір термінів, визначених у RDFS.

Онтології включають інформацію про класи, властивості і окремі випадки, кожен з яких може мати ідентифікатор ID, що є посиланням URI.

OWL має три модифікації:

OWL Lite (простий);

OWL DL (з повним доступом);

OWL Full (з повною виразною потужністю).

Кожна з цих модифікацій (крім Lite) є розширенням попередньої. Як наслідок: будь-яка OWL Lite онтологія є OWL DL онтологією, а будь-яка OWL DL онтологія є OWL Full онтологією.

Головні характеристики мови веб-онтологій - OWL:

OWL використовує синтаксис XML;

OWL має інструкції для представлення дерева класів;

OWL має інструкції для вказівки приналежності індивідів до класів;

OWL має систему опису властивостей: область визначення, область значень;

OWL може задавати характеристики властивостей: симетричність, транзитивність,
функціональність;

OWL має інструкції для вказівки еквівалентності (склеювання) класів.

Використання готової онтології дозволить розробникам, безпосередньо, приступити до заповнення даних та побудови шаблонів і дизайну. У разі відкритої публікації RDF-даних можлива реалізація програмних агентів для пошуку цих даних (наприклад, за допомогою спеціальних запитів системи Google), агрегація в єдиному сховищі та надання даних користувачеві (наприклад, абітурієнту) в єдиному інтерфейсі зі специфічними функціями. Можуть бути просто інтегровані дані підрозділів і представництв вузу, які просто редагуються редактором онтологій на місці, та імпортуються з основного веб-сайту цього вузу. У разі інтеграції досить великих і часто мінливих розподілених даних (наприклад, для агрегації інформації про конференції регіону з веб-представництв вузів і наукових організацій), можливе використання RDF-сховищ з відкритими інтерфейсами для вибірки тільки необхідних даних (наприклад, Joseki RDF Server[121])


^ 1.7. Мови запитів до RDF сховищ

Говорячи про мови запитів, фактично мова йде про інтеграції різних мов (інформаційно-пошукових, баз даних, маніпулювання даними, обміну даними і т.п.) в єдину мову запитів Web. При цьому всі фахівці об’єднуються в думці, що це має бути декларативна мова, побудована на моделі не повністю структурованих даних (semistructured).

Документ "XML-QL: A Query Language for XML" [76] був підготовлений до семінару W3C по пошуковим мовам, який пройшов в кінці 1998 року і виявився далеко не єдиною спробою узагальнення такого роду.

В даний момент з'явилося декілька мов запитів до XML-джерел даних: XQL (1998) [77], XML QL (1998) [78 - 80]. Пошук в XML-документі полягає в знаходженні елементів, які задовольняють умови запиту, з подальшим перетворенням знайдених елементів у структуру, задану у запиті.

Мова запитів до RDF-джерел даних (RDF Query), запропонована в 1998 [81 - 85] і в даний час має вже практичну реалізацію в проекті Sesame [86].

У 2006 році консорціум W3C почав розробку мови запитів до RDF та OWL-сховищ - SPARQL Query Language for RDF, який зараз має статус рекомендованого кандидата (candidate recommendation) [87].

SPARQL - мова запитів, яка базується на патерну графів.

SPARQL одночасно є, як мовою запитів, так і протоколом доступу до даних, також SPARQL є одною з ключових компонент додатків Web 2.0: в якості стандарту, для підтримки гнучкої моделі даних, він дає загальний механізм запитів для всіх додатків Web 2.


^ 1.8. Принцип "логічного висновку"

Принцип "логічного висновку" дуже простий: це можливість виводити нові дані з даних, які вже є. В математичному сенсі, виконання запиту є однією з форм логічного висновку (наприклад, можливість вивести з маси даних, деякий результат пошуку). Логічний висновок є одним з провідних принципів Semantic Web, так як він дозволяє дуже легко створювати SW-програми [88].

Для того, щоб Semantic Web став досить виразним і зміг допомагати людям у різних ситуаціях, виникає необхідність побудови потужної логічної мови, яка підтримує
логічний висновок. Дискусії, щодо методів, і навіть можливостей виконання цього завдання, до цих пір ведуться дуже активно; звертається увага на те, що в RDF недостатні можливості квантифікації, і що ця область визначена недостатньо добре. Проблеми логіки предикатів докладно розглянуті в базовій монографії Джона Сова (John Sowa's) «Математичні передумови (логіка предикатів)» - «Mathematical Background (Predicate Logic)» [89].

Rule Interchange Format (RIF) - формат обміну правилами. Мета якого розробляється консорціумом W3C стандарту [90] - визначення формату, який би дозволив транслювати правила між різними мовами і завдяки цьому забезпечити обмін правилами між системами, заснованими на правилах.

Системи, які грунтуються на правилах, одержали широке поширення в інформаційних технологіях. До їх числа відносяться, наприклад, експертні системи і системи дедуктивних баз даних. Розробки технологій Semantic Web забезпечують нове середовище використання таких систем. Тому консорціум W3C приділяє окрему увагу цій галузі. Специфікація RIF може розглядатися, як складова частина комплексу стандартів Semantic Web.

В даний час робочою групою, організованої за консорціумі для розробки цього стандарту, підготовлений, та обговорюється, робочий проект документа, який систематизує випадки використання RIF та вимоги до цієї мови. Найважливіша вимога до створюваного стандарту - забезпечення можливості його використання не тільки при поточному стані технологій, заснованих на правилах, але і його гнучкості, достатньої для забезпечення його використання в процесі їх еволюції.

Робочий проект документа, який описує випадки використання, дасть можливість визначити функціональні вимоги до RIF і на цій основі розробити адекватні специфікації мови.

Правила виведення нових фактів SWRL. Завдяки доповненню OWL мовою RuleML [91] (підмножина Datalog) у вигляді словника SWRL (A Semantic Web Rule Language) [92] з'явилася можливість використовувати діз'юнкти Хорна (Horn-like rules) для явної вказівки способу виведення нових фактів з RDF-тверджень. Поки словник SWRL знаходиться в стадії стандартизації [93].

Хоча роботи над цим рівнем Semantic Web тривають, проте в нашому розпорядженні є вже достатній набір засобів для побудови Semantic Web: твердження, цитування (матеріалізація) у RDF, класи, властивості, області, документування у схемі RDF, непересічні класи, властивості однозначності та унікальності , типи даних, інверсії, еквівалентності, списки та інше.


^ 1.9. Агенти та сервіси

Провідну роль в Semantic Web повинні зіграти програмні агенти. При вище описаної архітектурі інформаційного простору, передбачається, що агенти, що володіють інтелектуальними здібностями, зможуть виконувати поставлені ним, користувачеві, цілі та завдання самостійно. Наприклад, з пошуку необхідної інформації, підбору та вибору оптимальних варіантів і т.п. Це в перспективі мобільні, інтелектуальні агенти, здатні до цілеспрямованості, планування, спільній взаємодії з іншими агентами для досягнення мети, що мають знання як про себе, так і про зовнішній світ. Для досягнення поставлених завдань вони повинні мати можливість користуватися деякими стандартними наборами послуг, представленими в Web в якості веб-сервісів. [123]

^ Відмінність між агентом та сервісом - один і той же сервіс може бути забезпечений різними агентами. [122]

Програмні агенти

Цифрова пам'ять не мала б ніякого значення, якби не існувало агентів, які забезпечують можливість швид
еще рефераты
Еще работы по разное