Система информационного поиска, следуя своей задаче, должна иметь информацию обо всех документах, по которым она проводит поиск. В некоторых случаях имеется непосредственный и быстрый доступ к коллекции документов и она невелика. Тогда можно проводить полнотекстовый поиск в каждом документе коллекции. В случае большой распределенной коллекции документов нет возможности хранить локальную копию всех документов системы и обращаться к источникам информации в момент выполнения запроса. Поэтому поисковые запросы обслуживаются на основе содержимого индекса – структуры, содержащей некоторые описания известных в результате сбора информации ресурсов.
Размеры поисковых индексов:
Яндекс(апрель 2006) – 821 073 253 веб-страниц
Для размещения и работы с информацией такого объема используются распределенные параллельные архитектуры. В этом случае единый индекс разбивается на несколько отдельных частей(коллекций) по некоторому принципу, причем внутри разных коллекций могут использоваться разные методы выполнения поиска. Возникающие вопросы при создании распределенной поисковой системы: