Первые системы информационного поиска хранили в качестве представления документа его анотацию, причем она воспринималась просто как набор слов («bag-of-words»). Далее, с ростом вычислительных возможностей техники и размеров доступной оперативной и физической памяти, стало возможно индексировать документы целиком, хранить параметры его форматирования, гипертекстовые связи между документами и другую информацию. Так, объем первых коллекций конференции TREC, посвященной оценке качества методов информационного поиска, составлял единицы мегабайт, в то время как сейчас используются даже терабайтные коллекции. Разработчики начали использовать все более и более сложные модели представления документа, пытаясь максимально использовать имеющиеся в нем данные – структуру текста, форматирование, различные элементы разметки HTML.
Развитие современных методов информационного поиска можно рассматривать как постоянное совершенствование и усложнение модели документа и методов их использования. Существует несколько моделей информационного поиска, называемых классическими.
Моделью документа обычно называют набор характеристик документа, которые учитываются системой поиска при его обработке. Характеристики делят на два типа: связанные с текстом документа и не связанные с ним атрибуты документа.
Характеристики, не связанные с текстом, в системах Web поиска называются «мета – атрибутами». Такие атрибуты берутся из других источников. Для этого вида поиска в качестве таких атрибутов используется URL – адрес документа в сети Интернет, информация о времени создания или изменения документа. Также такие параметры называют «картотечными», так как они изначально указывались в библиотечном деле в картотеке.
Эти атрибуты можно разделить на:
Система информационного поиска при определении модели документа, которая будет использована, выбирают набор его атрибутов, которые будут учитываться в процессе работы системы. Выбор модели определяется двумя показателями: влиянием модели на качество поиска и Вычислительной Ресурсоемкостью?. Для больших коллекций эти показатели становятся противоречивыми и более точные модели, обеспечивающие более высокое качество поиска, требуют огромных системных ресурсов, поэтому зачастую выбираются простейшие варианты хранения характеристик документа.