Реферат: Внастоящее время используется несколько подходов к представлению информации в базах данных для обеспечения последующего поиска этой информации [65, 67]

Модели поиска

В настоящее время используется несколько подходов к представлению информации в базах данных для обеспечения последующего поиска этой информации [65, 67]. Рассмотрим два наиболее популярных подхода. Первый базируется на теории множеств, а второй на векторной алгебре. Оба подхода достаточно эффективны на практике, однако у них есть общий недостаток, который следует из основного упрощающего предположения, заключающегося в том, что смысл документа, его основное содержание определяется множеством ключевых слов — терминов и понятий, входящих в него. Конечно же, такие подходы частично ведут к потере содержательных оттенков текстов, зато позволяют выполнять быстрый поиск и группировку документов по формальным признакам. Сегодня эти подходы — самые популярные. Следует заметить, что существуют и другие методы, например семантические, в рамках которых делаются попытки выявить смысл текста за счет анализа грамматики текста, использования баз знаний и различных тезаурусов, отражающих семантические связи между отдельными словами и их группами. Очевидно, что такие подходы требуют больших затрат на поддержку баз знаний и тезаурусов для каждого языка, тематики и вида документов.

^ Булева модель поиска

Булева модель является классической и широко используемой моделью представления информации, базирующейся на теории множеств, и, следовательно, моделью информационного поиска, базирующейся на математической логике. Популярность этой модели связана, прежде всего, с простотой ее реализации, позволяющей индексировать и выполнять поиск в массивах документов большого объема. В настоящее время популярным является объединение булевой модели

с алгебраической векторно-пространственной моделью представления данных, что обеспечивает, с одной стороны, быстрый поиск с использованием операторов математической логики, а с другой стороны — качественное ранжирование документов, базирующееся на весах входящих в них ключевых слов.

В рамках булевой модели документы и запросы представляются в виде множества морфемных основ ключевых слов, будем их в дальнейшем называть термами. Пусть документальный массив С состоит из множества документов d\, ...,dn, а документ dv содержит множество различных термов T(di). Обозначим через r=UM„T(dj) словарь массива С, представляющий собой множество всех

термов, встречающихся в документах из ^ С, и через T(dt) — словарь документа d%. В булевой модели запрос пользователя представляет собой логическое выражение, в котором ключевые слова (термы запроса) связаны логическими операторами AND, OR и NOT. В различных поисковых системах в Internet пользователи могут пользоваться умолчаниями, не используя в явном виде логических операций, а просто перечисляя ключевые слова. Чаще всего по умолчанию предполагается, что все ключевые слова соединяются логической операцией AND (— в этих случаях в результаты поиска включаются только те документы, которые содержат одновременно все ключевые слова запроса. В тех системах, в которых пробел между словами приравнивается к оператору OR, в результаты поиска включаются документы, в которые входит хотя бы одно из ключевых слов запроса.

При использовании булевой модели база данных включает индекс, организуемый в виде инвертированного массива, в котором для каждого терма из словаря базы данных содержится список документов, в которых этот терм встречается.

В индексе могут храниться также значения частоты вхождения данного терма в каждом документе, что позволяет сортировать список по убыванию частоты вхождения. Классическая база данных, соответствующая булевой модели, организована таким образом, чтобы по каждому терму можно было быстро получить доступ к соответствующему списку документов. Кроме того, структура инвертированного массива обеспечивает его быструю модификацию при включении в базу данных новых документов. В связи с этими требованиями, инвертированный массив часто реализуется в виде В-дерева.

Существует несколько подходов к формированию архитектуры поисковых систем, соответствующих булевой модели и нашедших свое воплощение в реальных системах. Одной из наиболее удачных реализаций структуры базы данных информационно-поисковой системы на мэйнфреймах фирмы IBM была признана модель данных системы STAIRS (Storage and Information Retrieval System), которая, благодаря изначально удачным архитектурным решениям до сих пор продолжает развиваться. База данных информационно-поисковых систем этой традиционной архитектуры состоит из следующих основных таблиц [27]:

текстовой, содержащей текстовую часть всех документов;

таблицы указателей текстов, включающей указатели местонахождения документов в текстовой таблице, а заодно и форматные поля всех документов;

словарной, содержащей все уникальные слова, встречающиеся в полях документов, т.е. те слова, по которым может осуществляться поиск. Слова могут быть связаны в синонимические цепочки;

инверсной, содержащей списки номеров документов и координаты всех вхождений отдельных слов в полях документов.

Процессы, происходившие при поиске информации в базе данных STAIRS, сегодня реализуются средствами современных СУБД и ИПС документального типа. Поиск термина в базе данных осуществляется следующим образом.

Происходит обращение к словарной таблице, по которой определяется, входит ли слово в состав словаря базы данных, и если входит, то определяется ссылка на цепочку появлений этого слова в документах.

Выполняется обращение к инверсной таблице, по которой определяются координаты всех вхождений терма в текстовую таблицу базы данных.

По номеру документа происходит обращение к записи таблицы указателей текстов. Каждая запись этого файла соответствует одному документу в базе данных.

По номеру документа осуществляется прямое обращение к фрагменту текстовой таблицы — документу — и последующий его вывод.

В случае, когда обрабатывается выражение, состоящее не из одного слова, а из некоторого словосочетания, в результате отработки поиска по каждому слову запроса формируется массив записей, соответствующих вхождению этого термина в базу данных. После окончания формирования массивов результатов поиска происходит выявление релевантных документов путем выполнения теоретико-множественных операций над записями этих массивов. ■

^ Векторно-пространственная модель

Большинство известных информационно-поисковых систем и систем классификации информации в той или иной мере основываются на использовании векторной модели описания данных (Vector Space Model) [66, 68]. Векторная модель является классической алгебраической моделью. В рамках этой модели документ описывается вектором в некотором евклидовом пространстве, в котором каждому используемому в документе терму ставится в соответствие его весовой коэффициент (значимость), который определяется на основе статистической информации о его вхождении в отдельном документе или в документальном массиве. Описание запроса, который соответствует необходимой пользователю тематике, также представляет собой вектор в том же евклидовом пространстве термов. В результате для оценки близости запроса и документа используется скаляр'ное произведение соответствующих векторов описания тематики и документа.

В рамках этой модели с каждым термом ц в документе d) (и запросе q) сопоставляется некоторый неотрицательный вес wy. Таким образом, каждый документ и запрос могут быть представлены в виде ^-мерного вектора Щ/Ц _ i,... к, где к — общее количество различных термов во всех документах. Согласно векторной модели, близость документа af, к запросу q оценивается как корреляция между векторами их описаний. Эта корреляция может быть вычислена как скалярное произведение соответствующих векторов описаний. При этом весовые коэффициенты отдельных термов можно вычислять множеством различных способов.

Один из возможных простейших (но эффективных) подходов — использовать в качестве веса терма wi; в документе d, нормализованную частоту его использования fregtj в данном документе.

Щ = tfij = freqij / max] frequ i

Этот подход не учитывает частоту вхождения отдельного терма во всем информационном массиве, так называемую дискриминационную силу терма. Поэтому в случае, когда доступна статистика использований термов во всем информационном массиве, более эффективно следующее правило вычисления весов:

щ = tf A-idfy = tfij xlog N / щ,

где iii — число документов, в которых используется терм /), а Л' — общее число документов в массиве.

Обычно значения весов wtj нормируются (дополнительно делятся на квадратный корень из суммы весов всех термов, входящих в документ), что позволяет рассматривать документ как ортонормированныи вектор. Такой метод взвешивания термов имеет стандартное обозначение — tfxidf, где tf указывает на частоту использования термина в документе (term frequency), a idf — на величину, обратную числу документов массива, содержащих данный терм (inverse document frequency).

Когда возникает задача определения тематической близости двух документов или документа и запроса, в этой модели используется простое скалярное произведение sim(di, d2) двух векторов \\mi\\i = \,.., * и \&'i2\ - 1,.., а. которое, очевидно, соответствует косинусу угла между векторами-образами документов d\ и d2. Очевидно, sim(di,d2) принадлежит диапазону [0, 1]. Чем больше величина simidu d2) — тем более близки документы dl и d2. Для любого документа d, имеем sim(di,di)= 1. Аналогично мерой близости запроса q r документу dL считается величина sim{q, dt).

Векторно-пространственная модель представления данных автоматически обеспечивает системам, построенным на ее основе, такие возможности:

обработку сколь угодно больших запросов;

простую реализацию режима поиска документов, подобных уже найденным;

сохранение результатов поиска в некотором виртуальном массиве с последующим уточняющим поиском в нем.

^ Гибридные модели поиска

Несмотря на то что приведенные выше модели являются классическими, в чистом виде они применяются только в моделях систем. На практике чаще всего используются гибридные подходы, в которых объединены возможности булевой и векторно-пространственной моделей и зачастую добавлены оригинальные методы семантической обработки информации. Чаще всего в информационно-поисковых системах процедура поиска выполняется в соответствии с булевой моделью, а результаты ранжируются по весам в соответствии с моделью векторного пространства.

еще рефераты

Еще работы по разное

Реферат по разное

«Наука логики» (т н. «Большая логика») создана Гегелем в нюрнбергский период его жизни. Первая ее часть («Объективная логика», кн. 1 «Учение о бытии») вышла в начале 1812 г., вторая («Объективная логика», кн

17 Сентября 2013

Реферат по разное

Подготовка текста не завершена

17 Сентября 2013

Реферат по разное

Предмет и роль науки и логики, Сообщение 2003г

17 Сентября 2013

Реферат по разное

Украинской филологии, как они отложились в голове автора. Порядок диалогов по важности и во времени не соблюден. Учитывая, что сам автор далёк от филологии вообще и украинской филологии ещё более, прошу читателей извинить, если что не так

17 Сентября 2013

Реферат: Внастоящее время используется несколько подходов к представлению ин­формации в базах данных для обеспечения последующего поиска этой информа­ции [65, 67]

Реферат: Внастоящее время используется несколько подходов к представлению информации в базах данных для обеспечения последующего поиска этой информации [65, 67]