Справочная система
Проекты Live Internet | Page Index | Recent Changes | Recently Commented | Registration

Индексная структура поисковой системы


Система информационного поиска, следуя своей задаче, должна иметь информацию обо всех документах, по которым она проводит поиск. В некоторых случаях имеется непосредственный и быстрый доступ к коллекции документов и она невелика. Тогда можно проводить полнотекстовый поиск в каждом документе коллекции. В случае большой распределенной коллекции документов нет возможности хранить локальную копию всех документов системы и обращаться к источникам информации в момент выполнения запроса. Поэтому поисковые запросы обслуживаются на основе содержимого индекса – структуры, содержащей некоторые описания известных в результате сбора информации ресурсов.


Размеры поисковых индексов:
Яндекс(апрель 2006) – 821 073 253 веб-страниц


Для размещения и работы с информацией такого объема используются распределенные параллельные архитектуры. В этом случае единый индекс разбивается на несколько отдельных частей(коллекций) по некоторому принципу, причем внутри разных коллекций могут использоваться разные методы выполнения поиска. Возникающие вопросы при создании распределенной поисковой системы:


Индекс На Основе B Деревьев


 
Файлы [Скрыть файлы/форму]
Время работы: 0.238 s
Использовано памяти: 2.272 Mb