LiWiki : IR / Классические Модели Поиска

Проекты Live Internet | Page Index | Recent Changes | Recently Commented | Registration

Классические модели информационного поиска

Классические модели информационного поиска рассматривают документ как множество составляющих этот документ слов, которые принято называть термами. Терм – просто слово, семантика которого помогает описать основное содержание документа.

Формально модель состоит из четырех составляющих

D – множество используемых типов представлений документов
Q – множество используемых типов представления поисковых запросов – описаний поисковых потребностей пользователя
F – общий каркас, в рамках которого моделируется описание документов и запросов, а также взаимодействие между ними.
R( q, di ) – функция ранжирования, которая паре документ/запрос сопоставляет некоторое вещественное число.

Классические модели делят на три класса.

Теоретико Множественная Модель – использует в качестве каркаса теорию множеств. Пример – булева модель документа как множества содержащихся в нем термов.

Вероятностная Модель? – использует в качестве каркаса теорию веросятностей, в качестве оценки релевантности берется вероятность того, что данный документ будет признан пользователем отвечающим его информационной потребности

Алгебраическая Модель? – документ описывается в виде векторов в многомерном пространстве, каркасом являются алгебраические методы.

В силу своей простоты популярные теоретико-множественные модели. Вероятностная модель, несмотря на наиболее естественный способ формально описать проблему поиска – не пользуется популярностью. Наибольшей популярностью у исследователей пользуются алгебраические модели, поскольку их практическая эффективность обычно оказывается выше. В последнее время часто используются гибридные модели поиска, которые обладают свойствами моделей разных классов.

Файлов нет. [Показать файлы/форму]