Классические модели информационного поиска рассматривают документ как множество составляющих этот документ слов, которые принято называть термами. Терм – просто слово, семантика которого помогает описать основное содержание документа.
Формально модель состоит из четырех составляющих
D – множество используемых типов представлений документов
Q – множество используемых типов представления поисковых запросов – описаний поисковых потребностей пользователя
F – общий каркас, в рамках которого моделируется описание документов и запросов, а также взаимодействие между ними.
R( q, di ) – функция ранжирования, которая паре документ/запрос сопоставляет некоторое вещественное число.
Классические модели делят на три класса.
В силу своей простоты популярные теоретико-множественные модели. Вероятностная модель, несмотря на наиболее естественный способ формально описать проблему поиска – не пользуется популярностью. Наибольшей популярностью у исследователей пользуются алгебраические модели, поскольку их практическая эффективность обычно оказывается выше. В последнее время часто используются гибридные модели поиска, которые обладают свойствами моделей разных классов.