Реферат: Поиск информации в www
КУРСКИЙ ГОСУДАРСТВЕННЫЙ ПЕДАГОГИЧЕСКИЙ УНИВЕРСИТЕТ
КАФЕДРАИНФОРМАТИКИ И ТСО
КУРСОВАЯ РАБОТА“ ПОИСКИНФОРМАЦИИ В WWW”
выполнил: ст-нт ФМФ-56
Разиньков А.Н.
Руководитель: Ежова Т.В.
КУРСК-2002
Содержание:
1. Поиск информации в www…………………………………………………………1
1.1.Основы поисковых служб…………………………………………………………………1
Поисковые каталоги. Поисковые указатели (индексы). Сбор информациипоисковыми роботами. Индексацияресурсов. Исполнение запроса клиента. Сравнение поисковых каталогов иуказателей. От чего зависит качество поиска. Гибридные системы. Метапоисковыесистемы. Порталы. Рейтинговые службы.
1.2.Основные поисковые системы…………………………………………………8
AltaVista. Ask Jeeves. Direct Hit. Excite. FAST Search. GO/Infoseek.GoTo.
Google. HotBot. Inktomi. LookSmart. Lycos. MSN Search. Netscape Search.
Northern Light. Open Directory. RealNames. WebCrawler. Yahoo.
1.3.Отечественные поисковые системы……………………………………………11
Aport. Атрус(@Rus).Rambler. Яndex.
1.4.<span Times New Roman"">
Приемыпростого поиска информации в www………………………………...13Ловушка для начинающих. Сложениенаоборот. Арифметика вычитания.
Применим джокера. Контекстныйпоиск. Роль прописных букв. Поиск по
заголовкам. Поиск Web-узлов. Поиск URL-адресов. Поиск ссылок
1.5.<span Times New Roman"">
Средстварасширенного поиска…………………………………………………18Команда OR. Команда AND. Команда NEAR.Вложение команд.
1.6.<span Times New Roman"">
Выборпоисковой службы……………………. ………………………………………20Как проверить незнакомуюпоисковую службу. Реферативный поиск.
Углубленный поиск. Специальныйпоиск. Выводы и рекомендации.
2.1<span Times New Roman"">
Технология и результат поиска……………………..…………………………22Цели поиска: модель обучаемого.модель обучения. нейромодель обучаемого.
нейромодель обучения.нейросетевая модель обучаемого.
нейросетевая модельобучения.
<span Times New Roman",«serif»">
<span Times New Roman",«serif»">Поискинформации в
<span Times New Roman",«serif»; mso-ansi-language:EN-US">WWW<span Times New Roman",«serif»">формацию илиуслугу в WWW, их надо,прежде всего, разыскать, а поиск информации — непростая задача. По состоянию наначало 2000 г. ресурсы Webоцениваютсяболее чем в 850 миллионов Web-страниц.
Разумеется,рост Web-пространства в геометрической прогрессии не будет продолжаться вечно.Когда-то наступит момент насыщения. Можно предположить, что темпы развития WWWзамедлятся на рубеже 3-4 млрд. Web-страниц. Одной изпричин замедления, в частности, станет ограниченность поля IPадресов.Впрочем, к тому времени, наверное,уже заработает Интер-нет-2, и все будет по-другому.
Для поискаинформации в Сети используются специальные поисковые службы. Обычно поисковаяслужба — это компания, имеющая свой сервер, на котором работает некаяпоисковая система. Услуги абсолютного большинства поисковых служб бесплатны,но, тем не менее, по темпам роста сегодня это самый эффективный бизнес в мире.Всего за несколько лет такие службы как Yahoo!, AltaVista, Inktomiи некоторые другие развились от лабораторных проектов сбюджетом в десяток-другой тысяч долларов до компаний, стоимость которыхсоставляет 10-15 миллиардов долларов. Такого темпа приращения капитала мир ещене знал, особенно для бесплатных (для конечного пользователя) услуг.
При этоминтересно отметить, что ниша бизнеса далеко не освоена, и ниже мы увидим, какбуквально в считанные месяцы из хорошей идеи «с нуля» рождаются новые гиганты.
<span Times New Roman",«serif»">Основы поисковых служб
<span Times New Roman",«serif»">Сегодняпользователь WorldWideWebоказывается в той же ситуации, что iiчитатель крупной библиотеки. Чем больше фонды библиотеки, темтруднее найти именно ту книгу, которая сейчас нужна. Для упрощения поиска вбиблиотеке существуют каталоги: систематический, алфавитный, предметный идругие. Существуют и специализированные каталоги, например каталоги новых поступлений.
В Сети поиск обеспечиваютспециальные поисковые службы. Умение пользоваться ими, собственно говоря, исоставляет умение пользоваться Интернетом. Все поисковые системы WWWоснованы на гиперссылках. Обращаясь к поисковойслужбе, мы формулируем запрос, в котором формально описываем то, что хотимнайти. Проведя нужные операции, служба формирует Web-документ, состоящий изгиперссылок, ведущих к ресурсам WWW, соответствующимнашему запросу. Какой из этих гиперссылок м ы воспользуемся — дело наше.
Несмотря на то, что результатвсегда един (клиент получает список рекомендованных гиперссылок), принципдействия у разных поисковых служб может быть различным. Ниже мы рассмотрим, какклассифицируются поисковые службы по типам предоставляемых услуг, а также поспособам формирования своих ресурсов. Последнее очень важно для эффективнойработы не только пользователей, но и Web-мастеров. Пользователи должныучитывать способ формирования баз данных, чтобы знать, на что они могутрассчитывать при поиске информации, а Web-мастера должны это знать, чтобыдобиться наилучшего представления своих ресурсов в основных поисковых службахмира.
<span Times New Roman",«serif»">Поисковые каталоги
<span Times New Roman",«serif»">Поисковые каталоги похожи напредметные каталоги общественных библиотек. На начальной странице поисковогокаталога мы выбираем тему, которая нас интересует, затем в рамках темы выбираемкатегорию, потом подкатегорию, и так далее, пока не получим конкретный списокWeb-ресурсов, рекомендованных для просмотра. Крупнейшим поисковым каталогоммира сегодня считается поисковая система Yahoo! (www.yahoo.com) Онапредоставляет примерно 1 млн. ссылок к ресурсам WWW, то есть охватывает чуть более тысячной доли всегоWeb-пространства.
Основнымнедостатком и, в то же время, достоинством поисковых каталогов является«человеческий фактор». Данные, которые заносятся в каталог, проходят «ручнуюобработку». Сегодня на Yahoo! работаютдо 150 редакторов, ежедневнопросматривающих Web-пространство в поисках наиболее ценных ресурсов по темам,вызывающим общественный интерес. Кроме собственных редакторов службаиспользует и информацию, поставляемую Web-мастерами. Так, например,теоретически любой владелец Web-страницы может самостоятельно заполнитьположенную анкету и направить ее в адрес службы. Правда, гарантии, что страницабудет включена в каталог Yahoo!, это недает, поскольку служба не замусоривает свои каталоги ссылками настраницы-однодневки. Клиентов службы всегда раздражают ссылки, указывающие надавно несуществующие ресурсы. Чтобы не иметь особой головной боли по проверкеактуальности хранящихся ссылок, служба Yahoo! предпочитает скрупулезно подходить к формированию своихкаталогов. Тщательность в подборе информации обеспечивает высокую репутацию Yahoo!, несмотря на то, что совокупный объем ее ресурсовкрайне мал.
Другой подход к формированиюкаталога демонстрирует поисковая служба OpenDirectory(dmoz.org). Вкачестве источника для своих ресурсов она привлекает пользователей WWW, которые на добровольной основе могут обозреватьпонравившиеся им Web-страницы, каталогизировать их и размещать ссылки на них нацентральном сервере службы. Поскольку число добровольных помощников может бытьочень большим, у этой службы есть все шансы перекрыть успех Yahoo!.. Но принцип добровольности не гарантируеткачественности работы, поэтому каталоги, равные Yahooпо качеству, по-видимому, появятся еще не скоро. Однако естьи другие подходы, основанные, например, на 5МАНГ-технологии, и мы их тожерассмотрим.
<span Times New Roman",«serif»">Поисковые указатели (индексы)
<span Times New Roman",«serif»">11ринцип действия поискового указателя похож на принципдействия предметного каталога библиотеки. Пользователь формирует запрос спомощью ключевых слов, выражающих объект его поиска, а поисковая система выдаетему список ссылок на Web-страницы, содержащие данные ключевые слова. Ксли мыхотим найти информацию, посвященную взаимоотношениям А. Вольта с Н. Бонапартом,можно задать поиск документов, в которых одновременно встречаются слова Вольтаи Бонапарт, например так:
+Вольта+Бонапарт или так:
Вольта ANDБонапарт
Основное отличие поисковыхуказателей от поисковых каталогов состоит isполной автоматизации всех этапов работы. Здесь отсутствует«человеческий фактор», и потому количество Web-страниц, к которым ведет поисковыйуказатель, намного больше. Летом 1999 г. крупнейшие поисковые указателипреодолели 200-миллионный рубеж и, как сообщают, следующий рубеж(300-миллионный) будет взят в 2000 г.
<span Times New Roman",«serif»">Сбор информации поисковымироботами
<span Times New Roman",«serif»">Поисковыеуказатели работают в три этапа. Создание поисковой системы начинается сразработки специальной агентской программы, которая способна путешествовать поWeb-узлам Интернета, просматривать Web-страницы и копировать их содержание нацентральный сервер поисковой системы. Такие агентские программы называют«червяками», «пауками», «поисковыми роботами» (сокращенно «ботами»),«поисковыми машинами», «краулерами» и т. п. Многообразие названий связано стем, что каждая поисковая система создает свою собственную, неповторимуюпрограмму и дает ей свое имя, которое впоследствии становится нарицательным.Большинство современных поисковых систем начинались с того, что в 1993-94 годахв университетских лабораториях были разработаны экспериментальные программыдля мониторинга Сети.
Если причтении Web-страницы поисковый робот находит на ней ссылки на другие страницытого же Web-узла, он переходит по этим ссылкам, читает их содержание и такдалее. Как червяк, он проникает в самые отдаленные закоулки WWW.
<span Times New Roman",«serif»">Индексация ресурсов
<span Times New Roman",«serif»">Второй этапработы поисковой системы — индексация. Собрать на центральном сервере образысотен миллионов Web-страниц — это одно дело, а суметь выбрать те из них,которые нужны клиенту, сформировавшему запрос, — совсем другое. Отвечать надоочень быстро, а для этого данные надо хранить не как попало, а в видеспециальных структур. Процесс преобразования данных из той формы, в которойони хранятся на Web-страницах, в другие формы, удобные для быстрого просмотра,называется индексацией. В результатеиндексации и образуется база данных, которую называют поисковым указателем (индексом).
У каждой поисковой системы своиприемы и методы индексации. В частности, перед индексацией большинство системочищают документ от зарезервированныхслов (stop-words),к которым относятся артикли, предлоги, союзы,местоимения и другие слова, имеющие менее 4 символов. Однако не только короткиеслова могут быть зарезервированными. Очень распространенные слова, такие как Computerи Internetтоже резервируются. Искать что-то по ним бесполезно, так какони встречаются повсеместно.
Специализированные поисковые службымогут использовать и другие слова в качестве зарезервированных. Например, еслислужба занимается поиском книг (books), то словоbookдля нее может считатьсязарезервированным.
На этапе подготовки к индексацииможет происходить нормализация слов (stemming)за счет отбрасывания суффиксов и окончаний. Послетакой «зачистки» фраза типа «Мы с братом любим ловить рыбу» превращается в 'нечто похожее на «брат люб лов рыб». Исходный документ может быть найден припоиске по ключевым словам «брат», «любовь», «ловить», «рыба», но никогда пословам «мы» или «с».
Некоторые системы производятнормализацию всегда. Ряд систем, базирующихся на службе Inktomi(см. ниже) могут действовать кактем образом, так и другим. Служба AltaVistaне производит нормализациюникогда, и это ее уникальная особенность, которая, как будет показано ниже,активно используется для контекстногопоиска.
На основе «зачищенного» документаготовится индекс. Индекс — это особая база данных, созданная специальнымобразом, чтобы ускорить поиск. Существует множество методов индексации.Разумеется, они не разглашаются. Как и поисковый робот, алгоритм индексациисоставляет коммерческую тайну поисковой службы, поэтому в качестве примера мыприведем лишь простейший тип индекса — так называемый обратный файл.
Сутьобратногофайла состоит в том, что составляется словарь из всех слов, встреченных во всехдокументах, собранных поисковым роботом, а затем для каждого слова записываетсягруппа чисел, указывающих на то, в каких документах оно встречается, насколькочасто, а также кое-какая служебная информация.
<span Times New Roman",«serif»">Исполнение запроса клиента
<span Times New Roman",«serif»">Третий этап — ответ на запросклиента. Лучшие поисковые системы в ответ на запрос просматривают свои индексыза десятые доли секунды и немедленно возвращают списки ссылок, ведущих кзатребованным ресурсам. Работа происходит следующим образом.
Системаанализирует ключевые слова, которые клиент использовал в запросе. С нимипроизводятся те же операции освобождения от зарезервированных слов инормализации, после чего выполняется поиск совпадений с содержимым поисковыхиндексов. Эти операции в большинстве поисковых систем происходят примерноодинаково, но самая последняя операция, когда по найденным совпадениямформируется итоговый список ссылок, всегда различается. У каждой поисковойсистемы своя политика формированиярезультирующего списка.
Если найдено очень много ссылок наресурсы, удовлетворяющие запросу, то встает проблема их упорядочения. Здесьважно, какие ссылки дать в начале списка, а какие — в конце, то есть, надовводить какой-то рейтинг. Разные поисковые системы имеют разные рейтинговыесистемы. При исчислении рейтинга учитывается множество параметров. Занекоторые начисляются положительные баллы, а за некоторые — наоборот штрафные.Положительный рейтинг начисляется, в частности, при следующих обстоятельствах:
•если разыскиваемые слова встречаются на Web-странице неоднократно (но неслишком часто, и не подряд);
• если они расположеныблизко к началу страницы;
• если эти словаприсутствуют в заголовке страницы;
•если Web-страница имеет иллюстрацию, альтернативный текст которой тожесодержит слова, введенные пользователем.
Лучшие поисковые системы недавноввели новый подход к рейтингованию. Они учитывают количество ссылок впроиндексированном пространстве Web, ведущих кданному ресурсу. Это естественно, ведь чем больше публикаций ссылаются наданную страницу, тем она популярнее и тем выше вероятность того, что она будетполезной автору запроса. В традиционном библиотечном деле такой подходизвестен. Например, в США давно издается многотомный ежегодный «Индексцитирования» (CitationalIndex),в котором каталогизируются ссылки разных авторов на первоисточники.Это непростой технически, но очень полезный для клиентов метод индексацииресурсов.
К современным относятся икоммерческие хитрости. Относительно недавно некоторые поисковые системы (в томчисле и такая известная, как Alta Vista) началиповышать рейтинг тем, кто готов за это платить. Такой подход выглядит не оченькрасиво, но с точки зрения владельцев поисковых систем оправдан извечнымтезисом «заботы о потребителе». Они заявляют, что для потребителя ценностьинформации на странице солидной фирмы, готовой нести расход на свою рекламу вСети, все-таки выше, чем ценность доморощенной страницы никому не известногостудента. Возможно, что они и правы. Во всяком случае тот, кто заплатил деньгиза рейтингование своей страницы, наверное будет больше уделять внимания еекачеству, чем тот, кто сделал ее впопыхах и пристроил на первом попавшемся бесплатномсервере.
<span Times New Roman",«serif»">Сравнениепоисковых каталогов и указателей
У каждогоиз двух основных типов поисковых служб есть достоинства и недостатки. Поисковыекаталоги формируются вручную с помощью живых людей. Поэтому, как правило, еслимы находим в них нужный нам ресурс, то этот ресурс — один из лучших в Сети. Онне обязательно самый лучший и, может быть, лишь входит в первую двадцатку, ноон явно не случаен и может рассматриваться как рекомендованный. Ответственные редакторы поискового каталога,имеющие солидное образование в большинстве областей науки, техники и культуры,не будут включать в свой каталог очевидную ерунду. Поисковые каталоги удобнее итем, что там не бывает десятков ссылок на один и тот же ресурс, размещенный вразных местах или проиндексированный в разное время. В общем, если надо быстронайти лучший источник по какой-то теме, надо начинать поиск с поисковогокаталога.
Недостатком поисковых каталоговявляется их слабое знание о подлинных ресурсах WWW, которое с каждым днем падает в относительном измерении.Как мы уже говорили, крупнейший поисковый каталог Yahoo! за шесть лет своей работы довел количество обработанныхресурсов до миллиона, в то время как каждый год появляются сотни миллионовновых Web-страниц.
Поисковыеуказатели черпают свою исходную информацию от поисковых роботов, день и ночьползающих по просторам WWW. Процесссбора информации полностью автоматизирован, поэтому объем проиндексированногопространства намного больше, чем у поисковых каталогов. Сегодня этот показательпревышает 25% общего пространства Сети. С другой стороны, отсутствиечеловеческого фактора сказывается на качестве того, что можно найти черезпоисковые указатели. Для робота совершенно все равно, написана ли статья пофизике академиком или школьником. При рейтингова-пии робот может даже поставитьстраницу школьника выше.
Поэтому поисковые каталоги лучшеиспользовать для ознакомительного поиска, когда тема известна, а предпочтенийнет, например при подготовке школьного реферата на тему «Теорияотносительности». Каталог быстро выведет вас на Web-узел, на котором вы либонайдете то, что хотели, либо получите ссылки на другие полезные ресурсы. Апоисковые указатели стоит использовать для более глубоких или экзотическихрозысков. Например, человеку, которому о теории относительности и так уже всеизвестно, вряд ли поможет поисковый каталог, имеющий ссылки на общеизвестныеWeb-ресурсы. А поисковый указатель, проиндексировавший 300 миллионовWeb-страниц, может ему предложить какой-то уникальный отчет о семинаре,проведенном в университете штата Айдахо или в Новосибирске.
<span Times New Roman",«serif»">От чего зависит качество поиска
<span Times New Roman",«serif»">Как нетруднодогадаться, достоинства поисковых каталогов являются недостатками поисковыхуказателей и наоборот. Основных параметров, с помощью которых оцениваюткачество поисковых систем, всего два: коэффициентпопадания и коэффициент охвати.
Коэффициент попаданияпоказывает, какой процент ссылок, выданных поисковой системой, действительноотносится к той теме, которая интересует клиента. Для поисковых каталогов этоткоэффициент очень высок. Поскольку их составляют люди, появление «мусорной»ссылки — редкость. Обычно она возникает только когда за время, прошедшее послерегистрации, Web-страница перестает существовать. Для каталогов этот коэффициентсоставляет порядка 70-80%, и уж во всяком случае не должен быть менее 50 %.
Дляпоисковых указателей этот коэффициент печально низок. Если не предприниматьспециальных мер, он составляет единицы процентов. Причина лежит, во-первых, втом, что автоматические средства не могут точно выявлять тематическуюпринадлежность Web-страниц на основе формальных признаков, а во-вторых, в том,что большинство клиентов не умеют пользоваться всеми возможностями поисковыхсистем и формируют задание на поиск далеко не оптимально.
Коэффициент охватапоказывает, насколько базаданных поисковой системы отражает истинное количество информации, имеющейся поданной теме в мире. Здесь впереди поисковые указатели. Самые совершенные из hiixимеют коэффициент охвата порядка 25%. Поисковые каталоги,наоборот, не охватывают и одного процента всех наличных ресурсов.
С точкизрения пользователя качество поискаозначает стремление получить как можно больше ссылок по интересующей его теме,но так, чтобы в результирующем списке было как можно меньше ссылок, не имеющихпрямого отношения к объекту поиска. Пользователь желает, чтобы каждый изкоэффициентов был близок к 100%. Его субъективная оценка качества поисковойсистемы напоминает произведение коэффициента попадания на коэффициент охвата.Сегодня же и для поисковых каталогов, и для поисковых указателей этопроизведение составляет десятые доли процента.
Гибридные системыВ стремлении повысить качество работы поисковыхслужб есть попытки совместить оба подхода. При этом возможны два варианта:поисковые каталоги привлекают возможности поисковых указателей,переадресуя им запрос. Например, допоследнего времени поисковый каталог Yahoo переадресовывал особо сложные запросы поисковому указателю AltaVista.:
Сегодня Yahoo!привлекает средства другого партнера — Inktomi. '
С другой стороны, поисковыеуказатели научились выполнять автоматическую каталогизацию своих ресурсов ипредоставлять к ним доступ так как это принято в поисковых каталогах. Примертакого подхода являет самый мощный сегодня поисковый указатель FastSearch
<span Times New Roman",«serif»">Метапоисковыесистемы
К метапиисковым системам относится множество поисковых служб второгоэшелона. Они принимают от пользователя запрос и размещают его сразу нанескольких поисковых серверах. Потом они собирают поступившую от нихинформацию, обобщают ее, структурируют, рафинируют (очищают) и передаютклиенту. Увеличенное время исполнения запроса компенсируется улучшеннымкачеством результатов поиска.
Первое время крупные поисковыесистемы спокойно смотрели на суще-, ствование «под собой» метапоисковыхсистем. Однако в последнее время в связи с бурным развитием идеи порталов все чаще и чаще встречаютсязапреть! на метапоиск. А если говорить точнее, крупные поисковые системыначали заниматься им сами, привлекая ресурсы коллег на взаимовыгодной основе.
ПорталыВходя в WorldWideWebс помощьюброузера, мы попадаем на какую-то страницу, которая задана в настройкахброузера в качестве начальной. Пользовательможет легко перенастроить свой броузер на работу с другой начальной страницы.Какую именно страницу он будет использовать — его личное дело. Опыт показывает,что очень удобно иметь в качестве начальной страницы такую, на которой ужепредставлено несколько ссылок на основные поисковые системы. Удобно здесь жеиметь доступ к электронной почте. Неплохо, если на этой странице всегдаотображаются последние новости из мира политики, искусства, спорта, бизнеса ит. п. Такие « готовые» начальные страницы называются порталами. В мире существует множество порталов — настройте свойброузер на тот, который наилучшим образом соответствует вашим личныминтересам. Хорошие порталы предоставляют пользователю возможность персональнойнастройки «под себя». Надо только включить флажки против тех поставщиков информации,которые вам интересны, и выключить у тех, которые для вас неактуальны.
Борясь за клиентов, многиепоисковые системы превращаются в порталы. Это означает, что они не толькоготовы поставлять результаты поиска, но II способны выполнять другие услуги.Часто название порталов начинается сослова My(Мой/Моя/Мое). Например, если напоисковых системах Yahoo!, AltaVistaили DejaNewsвампредлагают подписаться на службу MyYahoo, MyAltaVistaили MyDejaNews, то, значит, речь идет о том, чтобы стать постояннымклиентом удобного портала.
Другойпричиной того, что поисковые системы постепенно превращаются в порталы, сталтот факт, что им стало трудно одновременно и «копировать» пространство WWW, и индексировать гигантские базы данных, и«Услуживать запросы клиентов. Поисковые системы начинают распределятьобязанности. Задачи по контролю за Web-пространством постепенно передаются напартнерских основаниях «третьим» фирмам, а сами поисковые системысосредоточиваются на обслуживании клиентов и привлечении рекламодателей, тоесть превращаются в порталы.
<span Times New Roman»,«serif»">Рейтинговые службы
<span Times New Roman",«serif»">В последниетри года появился новый тип служб, позволяющих быстро разыскивать информацию вСети, — это так называемые реитинговыеслужбы. Они занимают промежуточное положение между поисковыми службами ипорталами и могут использоваться как в том, так и в другом качестве.
Сутьрейтинговой службы состоит в том, что на ее сервере создаются тематическиеСП1-1СКИ ссылок на наиболее популярные Web-ресурсы. Хоть эти списки инебольшие, представительность их велика, поскольку именно эти ссылкипредпочитают большинство клиентов Сети.
Когда мывыбираем одну из ссылок, представленных на сервере службы, срабатывает счетчик,и рейтинг этого ресурса увеличивается. Каждый следующий посетитель видит,сколько «нащелкали» его предшественники, и понимает, какой ресурс ему стоитпосмотреть. Поиск с помощью рейтинговых служб можно рассматривать как поиск «порекомендациям». Разумеется, он не может претендовать на объективность, но когдаречь идет о темах, имеющих общественный интерес, таких как новости, политика,спорт, кино, музыка, компьютерные игры и т. п., этим «рекомендациям» можнодоверять. Самая популярная отечественная рейтинговая служба — Rambler(www.rambler.ru). Наиболее популярная зарубежная рейтинговая служба —WebsideStory(www.hitbox.com)
<span Times New Roman",«serif»">Основныепоисковые системы
<span Times New Roman",«serif»; mso-ansi-language:EN-US">AltaVista (
http://www.altavista.com/<span Times New Roman",«serif»; mso-ansi-language:EN-US">)Поколичеству индексированных Web-страниц Alta-Vista— одна изкрупнейших (но не самая крупная, как это иногда считается) поисковых системмира. Огромный объем охвата Web-пространстваи мощный набор поисковых команд делают эту систему излюбленным средствомпоиска для большинства пользователей. Система была запущена в эксплуатацию вдекабре 1995 г. и долгое время считалась молодой, но бурно развивающейся. Дляначинающих система имеет упрощенную службу, которая называется AskAltaVista. В своейработе эта служба привлекает другую поисковую службу — AskJeeves(см. ниже). Несмотря на то, что сегодня AltaVistaуже не является самым удобным средством поиска и владеет несамым большим индексом, ее популярность по-прежнему выше, чем у служб, которыепревзошли ее по многим показателям, что связано с устоявшимися привычкамимиллионов пользователей.
<span Times New Roman",«serif»; mso-ansi-language:EN-US">Ask Jeeves (http://www.askjeeves.com/)
Эта системапредставляет образец человеческого (неавтоматизированного) подхода к индексациии хранению информации о Web-документах. Ее цель не в том, чтобы выдатьв ответ на запрос как можнобольше возможных ссылок, в том, чтобыони были наиболее точны. В идеале система должна вас направить именно к тойWeb-странице, которая вам как раз и нужна. Система была введена в эксплуатациюв июне 1997 г. Результаты поиска в этой системе используются и при размещениизапроса в AltaVista.
<span Times New Roman",«serif»; mso-ansi-language:EN-US">Direct Hit (http://www.directhit.com/)
Систему DirectHitможно назвать системой «рафинирования» результатов поиска,выдаваемых другими поисковымисистемами. Она контролирует, какими результатами поисков клиенты пользуютсянаиболее часто и, тем самым, создает некий рейтинг популярности Web-страниц.Этот рейтинг она предоставляет другим поисковым системам, и они учитывают егопри выдаче результатов. Технология DirectHitнапрямую используетсяпоисковой системой HotBot. Она такжеучитывается системами Lycos, LookSmartи MSNSearch.
<span Times New Roman",«serif»; mso-ansi-language:EN-US">Excite (http://www.exc1te.com/)
Excite— одна из самых популярных поисковых систем WorldWideWeb. Она имеетуказатель среднего размера и кроме поиска Web-страниц предоставляет услуги по поиску других материалов, напримерсведений о компаниях или результатов спортивных соревнований. Система быласоздана в конце 1995 г., прошла этап бурного развития и в 1996 г. поглотиладвух ближайших конкурентов: систему Magellanи WebCrawler, хотя те по-прежнему сохраняютсвои торговые марки и предоставляют поисковые услуги как самостоятельныеслужбы.
<span Times New Roman",«serif»; mso-ansi-language:EN-US">FAST Search (http://www.alltheweb.com/)
Эта система,принадлежащая норвежской компании, ранее называлась AllTheWeb. Несмотряна то, что она была запущена совсем недавно (в мае 1999 г.), перед ней ставитсязадача обогнать конкурентов в полноте коллекций ссылой;
наWeb-страницы. Кажется, ей это удается. Летом 1999 г. FASTSearchпервое перешагнула 200-миллионный рубежпроиндексированных Web-докумеатов. Кроме системы FASTSearchта жекомпания контролирует подразделение системы Lycos, занимающееся поиском музыкальных файлов в формате МРЗ. л!
<span Times New Roman",«serif»; mso-ansi-language:EN-US;mso-bidi-font-weight:bold">Go/Infoseek(http://www.go.com/)
Go/lhfoseek— этосочетание известной в прошлом поисковой системы Infoseek(былаоснована в 1995 г.) и современного портала Go(создан в 1999 г. и принадлежит небезызвестной WaltDisneyCo). Кромепоисковых возможностей Infoseekпорталпре-| доставляет зарегистрированным пользователям возможность персональнойнастройки среды, бесплатную электронную почту и другие полезные cepвисы. Пользователи этой системы отмечают высокоекачество ссылок, возвращаемых системой, что объясняется специальным «фирменным»алгоритмом! поиска. Кроме автоматизированного указателя система имеет такжеобширный каталог Web-узлов, составляемый вручную.
<span Times New Roman",«serif»; mso-ansi-language:EN-US;mso-bidi-font-weight:bold">GoTo (http://www.goto.com/)
Поисковаяслужба GoTo не имеет отношения к порталу Go, и известна тем, что формирует результаты поиска накоммерческой основе. Компании, владеющие Web-узлами, за определенную платумогут договориться, чтобы ссылки на них появлялись на более высоких местах всписках итоговых результатов. Насколько известно, более никто, кроме AltaVista, не занимается такими махинациями. Впрочем, служба GoTo несчитает это махинацией, а полагает, что платежеспособность Web-издателянапрямую связана с качествомпоставляемой им информации, и потому для пользователя такой подход полезен. Приформировании списка служба берет оплаченные ссылки из собственной базы данных,а неоплаченные черпает от поисковой системы Inktomi(см. ниже).
Служба была запущена в 1997 г. В ееоснову был положен Web-краулер WorldWideWebWorm, приобретенный у разработчика — университета штата Колорадо.С его помощью собиралась первичная база указателя. В 1998 г. служба перешла нанынешнюю «коммерческую» модель обслуживания и начала использовать систему Inktomiв качестве генератора «некоммерческих»ссылок.
<span Times New Roman",«serif»; mso-ansi-language:EN-US;mso-bidi-font-weight:bold">Google(http://www.google.com/)
Служба Googleизвестна тем, что при генерации списка ссылок в первую очередь выдает ссылки на те Web-страницы, к которым из других документов ведет наибольшееколичество ссылок. Это дает очень интересный эффект. На большинстве поисковыхсистем совершенно бесполезно искать информацию по таким тривиальным словам какCars(Автомобили), Internet, WWW, Games(Игры).Поиск по этим словам вернет столько ссылок, что среди них невозможно найтисамые полезные. Служба Googleпри проведениипоиска по тривиальным словам дает отличные результаты, посколькуруководствуется мнением других пользователей, ранее осуществлявших подобныйпоиск.
<span Times New Roman",«serif»; mso-ansi-language:EN-US;mso-bidi-font-weight:bold">HotBot(http://hotbot.lycos.com/)
Попопулярности среди сетевой общественности HotBot приближается к AltaVista. Как и AltaVista, эта служба имеет огромный поисковый указатель и многополезных функций. При генерации первой "^^S^^^^^ страницы ссылок HotBot используетрезультаты, поступающие от системы DirectHit(см. выше). При генерациипоследующих страниц используется система Inktomi(см. ниже), услугами которой пользуются и другие поисковыеслужбы. Кроме поиска по ключевым словам служба предоставляет также возможностьпоиска по тематическому каталогу. Данные для каталога черпаются из проекта OpenDirectory(см. ниже).
СлужбаHotBot была создан