Лекция: Поисковые системы (search engines)

Ярким представителем поисковых систем является, например, международная AltaVista (www.altavista.com) или российский Rambler (www.rambler.ru).

Поисковые системы состоят из трех основных частей:

  1. Spider (он же Crawler, он же Bot, он же Robot) — программа, которая посещает веб-страницы, считывает (индексирует) полностью или частично их содержимое и далее следует по ссылкам, найденным на данной странице. Spider возвращается через определенные периоды времени (например, каждый месяц) и индекисрует страницу снова.
  2. Все, что находит и считывает Spider, попадает в индексы поисковой системы. Индексы системы представляют собой гигантское вместилище информации, где хранятся копии текстовой составляющей всех посещенных и проиндексированных Spider'ом страниц.
  3. Программа, которая в соответствии с запросом пользователя перебирает индексы поисковой системы в поисках информации, интересующей пользователя, и выдает ему на гора в порядке убывания релевантности найденые документы. Каждая поисковая система имеет своего собственного спайдера, со своими собственными «повадками». Каждая система индексирует страницы своим особым способом, и приоритеты при поиске по индексам тоже отличны. Поэтому, произведя запрос по определенным ключевым словам или выражениям, мы будем иметь разные результаты для каждой из поисковых систем.
еще рефераты
Еще работы по информатике