Лекция: Как работают поисковые машины

Поисковая машина (для краткости ее часто называют просто поисковик) представляет собой комплект программ, в основе которого лежат следующие пять:

· Spider («паук») — программа, которая загружает в поисковую машину Web-страницы. Работает аналогично браузеру, установленному на компьютере пользователя, но ничего не отображает ни на каком экране.

· Crawler («червяк », или « путешествующий паук ») — программа, способная найти на Web-странице все ссылки на другие страницы. Ее задача — определить, куда дальше должен ползти «паук», руководствуясь ссылками или заранее заданным списком адресов.

· Indexer (индексатор) — программа, которая «разбирает» страницу на составные части и анализирует их. Вычленяются и анализируются заголовки Web-страниц, заголовки документов, ссылки, текст документов, отдельно — текст, выделенный полужирным шрифтом, курсивом и т. д.

· Database (база данных) — хранилище всех данных, которые поисковая система загружает и анализирует. Требует огромных ресурсов как для хранения, так и для последующей обработки.

· Search Engine Results Engine (система выдачи результатов поиска) решает, какие страницы удовлетворяют запросу пользователя и в какой степени. Именно с этой частью поисковой системы «общается» пользователь.

Процесс загрузки из Сети информации и предварительного анализа ее поисковой машиной называется индексация, а сама база данных поисковой машины, в которой хранится собранная информация, – индекс.

Когда пользователь формирует запрос на поиск, поисковая машина просматривает свою базу данных и выдает перечень Web-страниц, содержащих слова, введенные пользователем в поле ввода (ключевые слова). Задача поисковой машины – отобрать те из них, которые в набольшей степени отвечают запросу пользователя (релевантны) и указывать ссылки в числе первых.

Высокая скорость поиска обеспечивается не только за счет того, что поисковая машина обращается к уже собранной и хранящейся тут же, у нее «под рукой», информации. Анализируя собранные данные, поисковая машина выполняет индексацию базы данных, в процессе которой каждому слову ставятся в соответствие его «координаты» — номер документа, в котором имеется данное слово, а зачастую и позиция слова в документе (номер предложения и номер слова в нем).

Алгоритмом поиска можно назвать метод, руководствуясь которым поисковая машина принимает решение, включать или не включать ссылку на страницу либо документ в результаты поиска.

Почти каждая поисковая машина использует свой собственный алгоритм поиска, и его детали представляют собой ноу-хау разработчиков поисковика.
Но большинство из них отбирают документы, отвечая сами себе на вопросы:

· Присутствует ли ключевое слово в заголовке документа?

Присутствует ли ключевое слово в имени домена или в адресе страницы?
Присутствует ли ключевое слово в подзаголовках документа либо в элементах текста, выделенных полужирным, курсивом либо как-то иначе?
Как часто ключевое слово встречается на странице? (Долю ключевых слов в тексте страницы иногда называют плотностью ключевого слова.)
Встречаются ли ключевые слова в описаниях страниц, выполненных их разработчиками, и среди ключевых слов, указанных разработчиками страниц?
На какие Web-узлы имеются ссылки на анализируемой странице и встречается ли ключевое слово в тексте ссылки?
Какие Web-узлы имеют ссылку на анализируемый сайт? Каков текст ссылки? (Это так называемый внестраничный критерий, потому что автор страницы не всегда может им управлять.)
На какие еще страницы данного сайта содержит ссылки анализируемая страница?

Полнота и точность поиска

Если бы интеллект поисковой машины был сравним с человеческим, в результате поиска мы получали бы несколько документов, содержащих исчерпывающую информацию о предмете поиска. К сожалению, это (пока) не так, и в результатах запроса обычно фигурируют сотни документов, не имеющих отношения к тому, что на самом деле мы хотели получить. Называются такие документы нерелевантными.

Релевантность

Итак, релевантным (от англ. Relevant) называется документ, имеющий отношение к сделанному запросу, т.е. содержащий нужную информацию.

Следует отметить, что обсуждение понятия релевантности в контексте информационно-поисковых систем ведется уже около полувека, но его конкретного общепринятого определения все ещё нет.

Этапы поисковой процедуры

Процедура поиска имеет вполне определенную этапность – от определения информационной потребности и области поиска до анализа результатов и выбора пертинентных объектов.

Информационные потребности пользователя могут относиться к разным областям, которые могут быть как узкоспециализированными, так и достаточно типовыми. На практике основная часть информационных потребностей приходится именно на типовые области применения:

· Поиск отдельных Web-страниц

Поиск новостей
Поиск людей и организаций
Поиск литературных произведений
Поиск программного обеспечения
Поиск музыкальных произведений
Поиск графических изображений
Поиск видеоинформации
Поиск коммерческой информации

Вторая, оперативная, часть поисковой процедуры предполагает многовариантность подходов и решений при формализации запросов в процессе их обработки. В этом случае также аналитик-профессионал приходит к необходимости использования весьма ограниченного числа поисковых серверов, каталогов и отдельных web-ресурсов для решения своей задачи. Основной задачей второго этапа является формирование эффективных запросов к ИПС. Наибольшую проблему при формировании запросов представляет то, что на каждом поисковом сервере используется свой информационно-поисковый язык (ИПЯ), несмотря на то что у различных языков много общего, — например, схожий набор булевых операций. В настоящее время не существует единого стандарта, подобного стандарту языка SQL для СУБД, хотя на протяжении многих лет ведутся попытки таких стандартизации.

Третий этап поиска в сете Internet является определяющим, — от его реализации зависит, будет ли найденное решение пертинентно. На этом этапе пользователь работает с конечными документами, полученными в виде отклика ИПС. От правильного выбора набора документов-первоисточников зависит результат работы всех трех этапов поисковой процедуры.

еще рефераты

Еще работы по информатике

Реферат по информатике

Как работают механизмы поиска

1 Января 2016

Реферат по информатике

Как работает машина фон Неймана

1 Января 2016

Реферат по информатике

Как работает NAT

1 Января 2016

Реферат по информатике

Как передается информация в сети Интернет. Адресация.

1 Января 2016