4.5. Организация поиска информации в сети Интернет
4.5.1. Традиционные поисковые системы Интернета
Для поиска информации используются специальные
внешние службы - поисковые серверы: поисковые машины и каталоги.
Поисковые машины - это такие серверы,
которые накапливают информацию о содержимом сайтов автоматически, при помощи
специальных программ-роботов.
Информацию для серверов-каталогов отбирают
люди. В отличие от поисковых машин, информация в каталогах более точно структурирована,
причем в вертикальном иерархическом виде.
И поисковые машины, и каталоги являются
внешними службами или, как их еще называют, автономными системами. Особенностью
автономных систем является то, что цикл работы с информацией выполняется полностью
непосредственно на этой системе, начиная с получения информации от первоисточника
и заканчивая предоставлением поискового сервиса конечному пользователю.
Автоматические поисковые системы охватывают
больший объем информации, их сведения чаще обновляются и поэтому более актуальны.
Однако информация на таких серверах плохо структурирована, потому что оценка
содержимого того или иного сайта - трудно формализуемая задача. Чаще всего
программа-робот отбирает документы только по наличию искомых слов в тексте
документа. Примером поисковой машины является AltaVista (http://www.altavista.com).
В каталогах вся информация
имеет четкую вертикальную иерархическую структуру. Причем эта структура строится
на основе смыслового содержания. В этом главная ценность каталогов, обрабатываемых
людьми: можно найти не множество сайтов, содержащих данные ключевые слова,
а множество сайтов, посвященных данной тематике. Примером каталога может служить
сервер Yahoo (http://www.yahoo.com).
Каталоги WWW, содержащие большое количество
записей, часто размещают на своих страницах локальные поисковые машины. Реализуемые
в виде традиционных шаблонов, которые мало чем отличаются от шаблонов на автоматических
индексах.
Как для поисковых машин, так и для каталогов
устанавливается некий принцип отбора информации. Этот принцип закладывается
либо в алгоритмы работы поисковых машин, либо в регламент работы людей (для
каталогов). В зависимости от того, откуда и какой тип информации накапливается,
оценивают две характеристики автономных систем - пространственный масштаб
и специализацию.
Пространственный масштаб призван ограничить
количество первоисточников информации до некоего конечного предела. Например,
поисковая система может быть построена в рамках только одного сайта. Поиск
может быть ограничен рамками одного географического домена (например, ru).
Такие системы называют региональными.
Существует множество поисковых серверов,
которые не имеют подобных ограничений. Их называют глобальными информационно-поисковыми
системами.
Особенности регионального подхода могут
присутствовать и в глобальных системах. Так, система Lycos (http://www.lycos.com)
сортирует результаты поиска в зависимости от того, из какого региона поступил
запрос.
Наиболее популярные поисковые сервера
загружены настолько, что возникает необходимость в создании "зеркал"
(mirrors). Зеркала должны содержать точную копию первичной поисковой системы
и гарантировать быстрое обслуживание обращений, поступающих из определенной
географической зоны.
При обращении к той или иной поисковой
системе следует учитывать, какие сервисы она предоставляет. Например, в отечественной
поисковой машине Яндекс (http://www.yandex.ru)
введен поиск не только страниц, но и серверов. Суть этого метода заключается
в том, что ключевые слова ищутся не по всем страницам, а лишь по их заголовкам
(то, что заключено в HTML между тегами "title"). В зарубежной AltaVista
сделана отдельная служба Real Names, которая содержит перечень всех зарегистрированных
страниц компаний и организаций.
Следующий важный сервис - это специализация
поиска. В настоящее время Интернет является хранилищем разных типов информации.
Поэтому и поиск информации тоже может быть формализован. Можно искать исключительно
графические изображения, можно - мультимедийные записи в формате MP3 и т.д.
На многих поисковых серверах можно задать тип искомой информации. кроме того,
существуют и серверы, которые специализируются на поиске информации строго
определенного типа. FTPSearch (http://ftpsearch.lycos.com)
специализируется исключительно на поиске файлов. Он индексирует всевозможные
ftp-серверы на предмет находящихся там файлов. Поиск осуществляется непосредственно
по наименованию искомого файла. Аналогично MP3Search (http://mp3.box.sk)
специализируется на поиске исключительно файлов в формате MP3.
Еще одним важным моментом является то,
какой язык запросов использует та или иная система. Чем сложнее этот язык
- тем более тонкую настройку поиска оказывается возможным провести. В настоящее
время не существует единого унифицированного языка запросов для поисковых
систем. Разработка такого языка сделала бы возможной интеграцию различных
поисковых сервисов в единую сверхсистему поиска. В феврале 1999 был начат
проект SESP (Search Engine Standards Project), в котором участвует 15 крупнейших
поисковых систем Интернета. В задачу проекта входит стандартизация работы
поисковых служб (материалы о нем можно найти по адресу http://www.searchenginewatch.com).
4.5.2. Метапоисковые системы
Еще одним перспективным направлением
развития поисковых сервисов в сети является использование метапоисковых систем.
Основа метапоисковых систем - это интерфейс между пользователем и множеством
поисковых систем. Метапоисковая система не предназначена для индексирования
и накопления информации. назначение ее - чистый поиск и обработка результатов
поиска.
Метасистема позволяет, в соответствии
с пожеланиями пользователя, ограничить свой поиск определенными поисковыми
серверами, проверять существование ресурсов, на которые указывают результаты
поиска, осуществлять уточненный поиск в результатах поиска и т.д. Метапоисковые
системы часто называют клиентами к поисковым серверам.
Примером метапоисковой системы может
служить отечественная разработка "ДИСКо Искатель" компании "ДИСКо"
(http://www.disco.ru).
Основной чертой метапоисковых систем
нового поколения является объединение поисковых серверов различных специализаций.
В рамках одного приложения можно осуществлять поиск информации различного
типа. При обработке поискового запроса допускается соединение более чем со
100 поисковыми системами (в т.ч. и со специализированными). Результаты поиска
дополнительно обрабатываются: ссылки, дублирующие уже найденные, системой
исключаются; полученные адреса проверяются на доступность. Есть возможность
конфигурации работы с поисковыми серверами (можно выбрать серверы, с которыми
будет работать система, указать максимальное число ссылок, получаемых с каждого
сервера и т.д.).
Однако и в случае использования метапоисковых
систем не обойтись без знаний о традиционных поисковых серверах - именно они
служат базой для всякого поиска.
|