Реферат: Правительство Российской Федерации Государственный университет Высшая школа экономики Факультет бизнес-информатики программа дисциплины



Правительство Российской Федерации

Государственный университет – Высшая школа экономики


Факультет БИЗНЕС-ИНФОРМАТИКИ


Программа дисциплины

Технологии поиска, анализа данных

и распространения информации в Интернет


для направления 080700.68 «Бизнес-информатика»

подготовки магистра


Автор д.т.н. В.А. Фомичев (vfomichov@hse.ru)


Рекомендована секцией УМС Одобрена на заседании
«Бизнес-информатика» кафедры инноваций и бизнеса
в сфере информационных технологий

Председатель Зав. кафедрой

______________ Ю.В.Таратухина _______________С.В. Мальцева

«___» _________2010 г. «_10_» 09 2009 г.
^ Утверждена УС факультета
бизнес-информатики

Председатель УС

___________ В.В. Никитин

«___» ________2010 г.


Москва


I. Тематический план учебной дисциплины



Название темы

Всего часов по дисциплине

Аудиторные часы

Самостоятельная работа

Лекции

Семинары, практ.занятия

1

Принципы организации современных поисковых систем в Интернет

8

2

2

4



2


П

Значение проекта Семантическая Паутина для расширения возмож-ностей смыслового поиска информации в сети Интернет


10


2


2



6

3

Хранилища данных

7

2

1

4

4

OLAP-системы

7

2

1

4

5

Интеллектуальный анализ данных

15

2

3

10

6

Интеллектуальный анализ естественно-языковых текстов

16

2

4

10

7

Дистанционное обучение

7

2

1

4









































































Итого

70

14

14

42

^ II. Базовые учебники

Барсегян А. А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. 2-е издание. – Санкт-Петербург: БХВ- Петербург, 2007. – 375 с.

Fomichov V.A. Semantics-Oriented Natural Language Processing:

Mathematical Models and Algorithms. New York, Dordrecht, Heidelberg, London: Springer U.S., 2010. - 354 p. ISBN: 978-0-387-72924-4

III. Формы текущего контроля знаний студентов и
структура итоговой оценки

Итоговая оценка по учебной дисциплине складывается из следующих элементов:

работа на лекциях и семинарских занятиях (доклады, обсуждения);

письменная аудиторная контрольная работа (60 мин.);

реферат (12-20 стр.);

устный экзамен (30 минут на 1 студента).

Структура итоговой оценки по учебной дисциплине:

Формы работы

Вклад в итоговую оценку (%)

Работа на лекциях и семинарских занятиях

20

Реферат

20

Аудиторная контрольная работа

20

Экзамен

40

^ IV. Содержание программы

Тема 1. Принципы организации современных поисковых систем в Интернет

Основные идеи гипертекстовой информационной технологии. Построение запросов на поиск информации в сети Интернет. Организация современных систем поиска информации в Интернет. Принципы поиска информации. Принципы ранжирования найденных источников.

Основная литература

1. Башмаков А.И., Башмаков И.А. Интеллектуальные информационные технологии – М.: Изд-во МГТУ им. Н.Э. Баумана, 2005. - 304 с.


Тема 2. Значение проекта Семантическая Паутина для расширения возможностей смыслового поиска информации в сети Интернет


Семантически-структурированные языки представления информации в проекте Семантическая Всемирная Паутина (Semantic Web). Основные структуры данных языка RDF. Примеры. Основные структуры данных языка RDF Schema. Определение и использование понятия “онтология” в информатике. Общая характеристика терминологических языков представления знаний. Примеры выражений таких языков. Общая характеристика языка разработки онтологий OWL. Виды описаний классов в языке OWL. Описание класса посредством перечисления в языке OWL. Описание класса посредством ограничений на значения в языке OWL. Описание класса посредством ограничений на свойства представителей класса в языке OWL. Описание подклассов в языке OWL. Применение онтологий для сопоставления содержания запроса пользлвателя Сети с содержанием элетронного документа.


Основная литература:

Resource Description Framework (RDF) Model and Syntax Specification. W3C Recommendation. January 1999, on-line at http://www.w3.org/TR/WD-rdf-syntax.

Resource Description Framework (RDF) Schema Specification 1.0. W3C Candidate Recommendation 27 March 2000; URL http://www.w3.org/TR/rdf-schema.

McGuinness, D.L. and van Harmelen, F. (Eds.)(2004), OWL Web Ontology Language Overview. W3C Recommendation 10 February 2004; available online at http://www.w3.org/TR/owl-features/.

Дополнительная литература:

Фомичев В.А. Математические основы представления содержания посланий компьютерных интеллектуальных агентов. - М.: Издательский Дом ГУ-ВШЭ, 2007.

Тема 3. Хранилища данных

Концепция хранилища данных. Принципы организации хранилищ данных. Очистка данных.

Основная литература

Барсегян А. А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. 2-е издание. – Санкт-Петербург: БХВ- Петербург, 2007. – 375 с. (Глава 2).


Тема 4. OLAP-системы

Концепция многомерной модели данных. 12 правил Кодда, характеризующих концептуальное многомерное представление. Дополнительные правила Кодда. Тест FASMI. Архитектура OLAP-систем. MOLAP-серверы. ROLAP-серверы. HOLAP-серверы.

^ Основная литература

Барсегян А. А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. 2-е издание. – Санкт-Петербург: БХВ- Петербург, 2007. – 375 с. (Глава 3).

Тема 5. Интеллектуальный анализ данных

Определение и предпосылки возникновения интеллектуального анализа данных (ИАД), или добычи данных (Data Mining, DM), или извлечения знаний из данных (Knowledge Discovery in Databases, KDD). Место и роль Data Mining в процессе принятия решений. Основные задачи Data Mining, виды моделей. DM и статистический анализ. Data Mining и хранилища данных. DM и OLAP. Data Mining как самостоятельная отрасль индустрии программного обеспечения. Методы и инструментарий Data Mining. Типы закономерностей, которые позволяют выявлять  методы Data Mining.

Компоненты систем Data Mining. Практическое применение систем Data Mining. Интернет-технологии. Торговля. Телекоммуникации. Промышленное производство. Медицина. Банковское дело. Страховой бизнес.

Модели Data Mining. Предсказательные модели. Описательные модели. Методы Data Mining. Базовые методы. Применение нечеткой логики. Генетические алгоритмы. Нейронные сети. Область их применения. Основные этапы процесса обнаружения знаний.

Основная литература:

1. Барсегян А. А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. 2-е издание. – Санкт-Петербург: БХВ- Петербург, 2007. – 375 с.

Тема 6. Интеллектуальный анализ естественно-языковых текстов

Лингвистические процессоры. Полнотекстовые базы данных. Проблема извлечения знаний из текстов. Text Mining и Web Mining. Определение семантического представления текста на естественном языке (ЕЯ). Построение семантических представлений ЕЯ-текстов средствами языков логики предикатов первого порядка. Ограниченность выразительных возможностей класса языков логики предикатов первого порядка. Понятие семантической сети. Построение семантических представлений ЕЯ-текстов в виде семантических сетей. Концептуальные графы. Проблема разработки универсального семантического сетевого языка и существующие подходы к ее решению. Семантический сетевой язык UNL (Universal Networking Language). Ограниченность выразительных возможностей языка UNL.

Краткая характеристика системы правил, предлагаемых теорией К-представлений для формирования семантических представлений ЕЯ-текстов. Построение семантических представлений описаний ситуаций в теории К-представлений. Построение семантических представлений вопросов в теории К-представлений. Построение семантических представлений связных текстов (дискурсов) в теории К-представлений.

Структура лингвистической базы данных. Морфологические базы данных. Структура лексико-семантического словаря. Cловари глагольно-предложных семантико-синтаксических фреймов. Словари предложных семантико-синтаксических фреймов.

Принципы и методы семантико-синтаксического анализа естественно-языковых текстов. Компонентно-морфологическое представление входного текста. Структура матричного семантико-синтаксического представления ЕЯ – текста. Метод преобразования ЕЯ-текстов в их семантические представления. Метод выявления вида входного текста. Метод обработки ролевых вопросительных словосочетаний. Метод поиска возможных смысловых связей между значением глагольной формы и значением зависящей от нее группы слов. Обработка прилагательных, предлогов, количественных числительных и существительных. Принципы сборки семантического представления входного текста по его матричному семантико-синтаксическому представлению.

Методы кластеризации текстов. Проблема автоматизации реферирования (аннотирования) текстов. Методы извлечения фрагментов для аннотаций. Компьютерные средства интеллектуального анализа естественно-языковых текстов.


Основная литература:

Фомичев В.А. Математические основы представления содержания посланий компьютерных интеллектуальных агентов. - М.: Издательский Дом ГУ-ВШЭ, 2007.

Fomichov V.A. Semantics-Oriented Natural Language Processing:

Mathematical Models and Algorithms. New York, Dordrecht, Heidelberg, London: Springer U.S., 2010. - 354 p. ISBN: 978-0-387-72924-4 (планируемый срок опубликования онлайн версии книги – 02.12.2009).


Дополнительная литература:

Фомичев В.А. Формализация проектирования лингвистических процессоров – М.: МАКС Пресс, 2005. 368 с.

Барсегян А. А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. 2-е издание. – Санкт-Петербург: БХВ- Петербург, 2007. – 375 с.


Тема 7. Дистанционное обучение

Сущность, актуальность и содержание дистанционного обучения. Виды дистанционного обучения. Психологические и социальные аспекты. Достигнутые результаты. Характеристики различных поколений систем дистанционного обучения. Технические средства для построения систем дистанционного обучения третьего поколения. Структура и возможности Веб-платформы дистанционного обучения Blackboard, версия 7.0. Методологические особенности дистанционного обучения. Возможные структуры дистанционного курса. Лекционный материал. Упражнения. Домашние задания. Экзамены. Ритм учебного процесса. Формы стимулирования познавательной деятельности студентов. Значение дискуссионных форумов для стимулирования совместной учебной деятельности студентов дистанционного класса. Формы взаимодействия с преподавателем. Необходимость дифференцированного подхода к студентам. Информационные технологии и инструментальные средства создания методических материалов для дистанционного обучения. Роль онтологий в системах дистанционного обучения.
Основная литература:

Педагогические технологии дистанционного обучения. Под ред. Полат Е.С., Академия, 2006.

Бабешко В.Н., Нежурина М.И. Система оценки качества программных комплексов для дистанционного обучения, 2007 (информация о книге – на портале http://dlc.miem.edu.ru/newsite.nsf/cdonotes/0003.html)


^ V.Тематика заданий по различным формам текущего контроля:

Контрольная работа:

Содержание

Задачи по теме “ Интеллектуальный анализ естественно-языковых текстов”.

^ Основные типы задач контрольной работы:

Построение семантического представления текста на русском языке в виде формулы логики предикатов первого порядка.

Построение семантических К-представлений описаний ситуаций.

Построение семантических К-представлений описаний множеств.

Построение семантических К-представлений вопросов с ответом "Да"/"Нет".

Построение семантических К-представлений вопросов со словами “какие”, “каким” и т.д.

Построение семантических К-представлений вопросов о количестве предметов.

Построение семантических К-представлений связных текстов (дискурсов).

Методические указания по подготовке реферата по дисциплине

«Технологии поиска, анализа данных

и распространения информации в Интернет»

^ Общие требования



Реферат базируется на публикациях 2003 – 2010 годов, относящихся к одному из выбранных направлений (список направлений прилагается ниже).

Введение к реферату должно представлять читателю некоторые общие черты исследований, отраженных в анализируемых работах.

Язык публикаций – английский, немецкий, французский, японский, русский. Количество проанализированных источников на иностранных языках должно превышать в 3 раза (или большее количество раз) количество проанализированных источников на русском языке.

Реферат базируется не менее чем на 5 публикациях.

Реферат базируется преимущественно на таких публикациях, которые включают примеры формальных выражений, являющихся (в зависимости от выбранного направления): (а) семантическим представлением текста на естественном языке, (б) представлением фрагмента знаний о предметной области, в частности, формальным определением понятия, (в) представлением содержания послания компьютерного интеллектуального агента, входящего в многоагентную систему.

Объем реферата – от 12 страниц через полтора интервала, размер шрифта 13 или 14.

Реферат сдается в печатном виде на русском языке.

Обзор может включать фрагменты с примерами формальных выражений (взятые из проанализированных источников) на английском, немецком или французском языках (см. пункт 5).

Если Вы не уверены в правильности перевода термина, дайте в скобках этот термин на языке оригинала.

В конце обзора должен быть список использованной литературы. Нужно внимательно проверить полноту библиографических данных: авторы, названия статьи и издания, год опубликования, страна, издательство, том и номер – для журналов; если можно, то номера первой и последней страницы статьи. Для Интернет-публикаций – Веб-координата, автор (авторы), название статьи и издания, год опубликования, страна и т.д.

Важно приводить информацию о научных центрах, в которых выполнено исследование, отраженное в публикации.



^ Список направлений


Направление 1: Применения семантически-ориентированного компьютерного анализа естественного языка


Вопросы, на которые нужно обращать основное внимание:

Формализмы, используемые для построения семантических представлений текстов.

Формализмы, используемые для представления знаний о предметных областях.

Примеры текстов и их семантических представлений.

Основные принципы семантико-синтаксического анализа (или, по другой терминологии, семантического анализа) текстов на естественном языке.

Преимущества подхода.

Характеристика входного языка лингвистического процессора (ЛП).

Для решения каких практических задач применялся лингвистический процессор.

В каком научном центре (или какой фирмой) разработан лингвистический процессор.

Имена и фамилии разработчиков ЛП.

Что-то еще, что покажется интересным.


Основные ключевые слова и сочетания для поиска:


Semantics-oriented natural language processing (NLP), semantic analysis of natural language sentences and discourses, semantic-syntactic analysis, semantic processing of texts (of full texts, of free texts), textual databases, semantic representation (or conceptual representation) of natural language text, knowledge representation, conceptual graph, formal language, semantics-oriented natural language interface (NL- interface), recommender systems with NL- interfaces, E-commerce, electronic commerce, natural language dialog-based navigation system, text mining, knowledge extraction from natural language texts


^ Направление 2: Анализ состояния исследований по рекомендательным системам с естественно-языковым интерфейсом

(Recommender Systems with Natural Language Interface).


Основные ключевые слова и сочетания для поиска: cм. Направление 1+ natural language generation + preference handling + intelligent consulting


^ Направление 3: Смысловой поиск информации в полнотекстовых базах данных

(Conceptual Information Retrieval in Full-Text Databases)


Основные ключевые слова и сочетания для поиска: cм. Направление 1 + bioinformatics + medicine + law


^ Направление 4: Обогащение онтологий посредством извлечения знаний компьютерной системой из естественно-языковых текстов

(The Construction of Ontologies with the Help of Natural Language Processing Systems)


Основные ключевые слова и сочетания для поиска: cм. Направление 1 + Ontology + Knowledge representation + Knowledge processing + OWL


Направление 5:

Применения языков RDF, RDFS и OWL для построения семантических аннотаций Веб-документов и Веб-сервисов


Направление 6:

Семантическая обработка данных в электронном здравоохранении (e-health)


Направление 7:

Семантическая обработка данных в электронных библиотеках (digital libraries)


^ Направление 8: Совершенствование методов поиска информации в проекте Семантическая Паутина


Направление 90: Средства и методы семантической интеграции данных в электронном здравоохранении (e-health) и электронной науке (e-science)


^ Направление 10: Семантические основы электронной науки (semantic e-science)


Направление 11: Автоматизация синтеза естественно-языковых описаний фрагментов знаний, представленных в онтологиях OWL-выражениями


^ Направление 12: Технологии интеллектуального реферирования текстов

(Intelligent Text Summarization)


Основные ключевые слова и сочетания для поиска: cм. Направление 1.

^ VI. Вопросы для оценки качества освоения дисциплины

Основные идеи гипертекстовой информационной технологии.

Организация современных систем поиска информации в Интернет.

Принципы поиска информации.


Задачи проекта Семантическая Всемирная Паутина.

Определение и использование понятия “онтология” в информатике.

Общая характеристика терминологических языков представления знаний. Примеры выражений таких языков.

Семантически-структурированные языки представления информации в проекте Семантическая Всемирная Паутина.

Основная структура данных языка RDF. Пример

Назначение и разновидности структуры данных container в языке RDF.

Назначение и структуры данных языка RDF Schema (RDFS) .

Виды описаний классов в языке OWL.

Описание класса посредством перечисления в языке OWL.

Описание класса посредством ограничений на значения в языке OWL.

Описание класса посредством ограничений на свойства представителей класса в языке OWL.

Описание подклассов в языке OWL.

Применение онтологий для сопоставления содержания запроса пользлвателя Сети с содержанием элетронного документа.


Концепция хранилища данных.

Принципы организации хранилищ данных.

Очистка данных.

12 правил Кодда, характеризующих концептуальное многомерное представление. Дополнительные правила Кодда.

Тест FASMI.

Архитектура OLAP-систем.

MOLAP-серверы.

ROLAP-серверы. HOLAP-серверы.


Определение и предпосылки возникновения интеллектуального анализа данных (ИАД), или добычи данных (Data Mining, DM), или извлечения знаний из данных (Knowledge Discovery in Databases, KDD).

Место и роль Data Mining в процессе принятия решений.

Основные задачи Data Mining, виды моделей.

Data Mining как самостоятельная отрасль индустрии программного обеспечения. Методы и инструментарий Data Mining.

Типы закономерностей, которые позволяют выявлять  методы Data Mining.

Компоненты систем Data Mining.

Практическое применение систем Data Mining.

Предсказательные модели Data Mining.

Описательные модели Data Mining..

Базовые методы Data Mining.

Применение нечеткой логики в системах Data Mining.

Генетические алгоритмы.

Нейронные сети. Область их применения.

Основные этапы процесса обнаружения знаний.


Полнотекстовые базы данных.

Проблема извлечения знаний из текстов. Text Mining и Web Mining.

Области применения лингвистических процессоров

Определение семантического представления текста на естественном языке

Построение семантических представлений ЕЯ-текстов средствами языков логики предикатов первого порядка.

Ограниченность выразительных возможностей класса языков логики предикатов первого порядка.

Семантические сети.

Концептуальные графы.

Проблема разработки семантического сетевого языка и существующие подходы к ее решению.


Краткая характеристика системы правил, предлагаемых теорией К-представлений для формирования семантических представлений ЕЯ-текстов.

Построение семантических представлений описаний ситуаций в теории К-представлений

Построение семантических представлений описаний множеств в теории К-представлений

Построение семантических представлений вопросов с ответом "Да"/"Нет".в теории К-представлений

Построение семантических представлений вопросов со словами “какие”, “каким” и т.д. в теории К-представлений

Построение семантических представлений вопросов о количестве предметов в теории К-представлений

Построение семантических представлений вопросов о количестве событий

в теории К-представлений.


Структура лингвистической базы данных.

Морфологические базы данных.

Структура лексико-семантического словаря.

Структура словаря глагольно-предложных семантико-синтаксических фреймов.

Структура словаря предложных семантико-синтаксических фреймов.

Принципы и методы семантико-синтаксического анализа естественно-языковых текстов.

Методы кластеризации текстов.

Проблема автоматизации реферирования (аннотирования) текстов.

Методы извлечения фрагментов для аннотаций.

Компьютерные средства анализа естественно-языковых текстов.


Технические средства для построения систем дистанционного обучения третьего поколения.

Структура и возможности Веб-платформы дистанционного обучения Blackboard, версия 7.0.

Методологические особенности дистанционного обучения. Возможные структуры дистанционного курса. Лекционный материал. Упражнения. Домашние задания. Экзамены. Ритм учебного процесса.

Формы стимулирования познавательной деятельности студентов. Значение дискуссионных форумов для стимулирования совместной учебной деятельности студентов дистанционного класса.

Формы взаимодействия с преподавателем. Необходимость дифференцированного подхода к студентам.

Информационные технологии и инструментальные средства создания методических материалов для дистанционного обучения.

Роль онтологий в системах дистанционного обучения.


Автор программы: _____________В.А. Фомичев


еще рефераты
Еще работы по разное