Лекция: Как работают поисковые машины

Поисковая машина (для краткости ее часто называют просто поисковик) представляет собой комплект программ, в основе которого лежат следующие пять:

· Spider («паук») — программа, которая загружает в поисковую машину Web-страницы. Работает аналогично браузеру, установленному на компьютере пользователя, но ничего не отображает ни на каком экране.

· Crawler («червяк », или « путешествующий паук ») — программа, способная найти на Web-странице все ссылки на другие страницы. Ее задача — определить, куда дальше должен ползти «паук», руководствуясь ссылками или заранее заданным списком адресов.

· Indexer (индексатор) — программа, которая «разбирает» страницу на составные части и анализирует их. Вычленяются и анализируются заголовки Web-страниц, заголовки документов, ссылки, текст документов, отдельно — текст, выделенный полужирным шрифтом, курсивом и т. д.

· Database (база данных) — хранилище всех данных, которые поисковая система загружает и анализирует. Требует огромных ресурсов как для хранения, так и для последующей обработки.

· Search Engine Results Engine (система выдачи результатов поиска) решает, какие страницы удовлетворяют запросу пользователя и в какой степени. Именно с этой частью поисковой системы «общается» пользователь.

Процесс загрузки из Сети информации и предварительного анализа ее поисковой машиной называется индексация, а сама база данных поисковой машины, в которой хранится собранная информация, – индекс.

Когда пользователь формирует запрос на поиск, поисковая машина просматривает свою базу данных и выдает перечень Web-страниц, содержащих слова, введенные пользователем в поле ввода (ключевые слова). Задача поисковой машины – отобрать те из них, которые в набольшей степени отвечают запросу пользователя (релевантны) и указывать ссылки в числе первых.

Высокая скорость поиска обеспечивается не только за счет того, что поисковая машина обращается к уже собранной и хранящейся тут же, у нее «под рукой», информации. Анализируя собранные данные, поисковая машина выполняет индексацию базы данных, в процессе которой каждому слову ставятся в соответствие его «координаты» — номер документа, в котором имеется данное слово, а зачастую и позиция слова в документе (номер предложения и номер слова в нем).

Алгоритмом поиска можно назвать метод, руководствуясь которым поисковая машина принимает решение, включать или не включать ссылку на страницу либо документ в результаты поиска.

Почти каждая поисковая машина использует свой собственный алгоритм поиска, и его детали представляют собой ноу-хау разработчиков поисковика.
Но большинство из них отбирают документы, отвечая сами себе на вопросы:

· Присутствует ли ключевое слово в заголовке документа?

  • Присутствует ли ключевое слово в имени домена или в адресе страницы?
  • Присутствует ли ключевое слово в подзаголовках документа либо в элементах текста, выделенных полужирным, курсивом либо как-то иначе?
  • Как часто ключевое слово встречается на странице? (Долю ключевых слов в тексте страницы иногда называют плотностью ключевого слова.)
  • Встречаются ли ключевые слова в описаниях страниц, выполненных их разработчиками, и среди ключевых слов, указанных разработчиками страниц?
  • На какие Web-узлы имеются ссылки на анализируемой странице и встречается ли ключевое слово в тексте ссылки?
  • Какие Web-узлы имеют ссылку на анализируемый сайт? Каков текст ссылки? (Это так называемый внестраничный критерий, потому что автор страницы не всегда может им управлять.)
  • На какие еще страницы данного сайта содержит ссылки анализируемая страница?

 

Полнота и точность поиска

Если бы интеллект поисковой машины был сравним с человеческим, в результате поиска мы получали бы несколько документов, содержащих исчерпывающую информацию о предмете поиска. К сожалению, это (пока) не так, и в результатах запроса обычно фигурируют сотни документов, не имеющих отношения к тому, что на самом деле мы хотели получить. Называются такие документы нерелевантными.

 

Релевантность

Итак, релевантным (от англ. Relevant) называется документ, имеющий отношение к сделанному запросу, т.е. содержащий нужную информацию.

Следует отметить, что обсуждение понятия релевантности в контексте информационно-поисковых систем ведется уже около полувека, но его конкретного общепринятого определения все ещё нет.

 

Этапы поисковой процедуры

Процедура поиска имеет вполне определенную этапность – от определения информационной потребности и области поиска до анализа результатов и выбора пертинентных объектов.

Информационные потребности пользователя могут относиться к разным областям, которые могут быть как узкоспециализированными, так и достаточно типовыми. На практике основная часть информационных потребностей приходится именно на типовые области применения:

· Поиск отдельных Web-страниц

  • Поиск новостей
  • Поиск людей и организаций
  • Поиск литературных произведений
  • Поиск программного обеспечения
  • Поиск музыкальных произведений
  • Поиск графических изображений
  • Поиск видеоинформации
  • Поиск коммерческой информации

Вторая, оперативная, часть поисковой процедуры предполагает многовариантность подходов и решений при формализации запросов в процессе их обработки. В этом случае также аналитик-профессионал приходит к необходимости использования весьма ограниченного числа поисковых серверов, каталогов и отдельных web-ресурсов для решения своей задачи. Основной задачей второго этапа является формирование эффективных запросов к ИПС. Наибольшую проблему при формировании запросов представляет то, что на каждом поисковом сервере используется свой информационно-поисковый язык (ИПЯ), несмотря на то что у различных языков много общего, — например, схожий набор булевых операций. В настоящее время не существует единого стандарта, подобного стандарту языка SQL для СУБД, хотя на протяжении многих лет ведутся попытки таких стандартизации.

Третий этап поиска в сете Internet является определяющим, — от его реализации зависит, будет ли найденное решение пертинентно. На этом этапе пользователь работает с конечными документами, полученными в виде отклика ИПС. От правильного выбора набора документов-первоисточников зависит результат работы всех трех этапов поисковой процедуры.

еще рефераты
Еще работы по информатике