Основная гипотеза информационного поиска: документ содержит те же термы языка, что и запрос. Терм обычно это слово естественного языка, на котором составлен запрос и документы. При первичной обработке документов, среди которых будет производиться поиск, термы-слова? выделяются из обрабатываемых документов.
В бинарной модели каждый терм языка или присутствует или отсутствует в документе.
В данной модели документ после обработки становится множеством пар «слово-вес», где вес, в отличие от Бинарная Модель?, характеризует не просто наличие или отсутствие терма в документе, но и говорит о его роли и значимости в описании основного смысла документа. Существует несколько методов определения веса слов:
Как правило, используется некоторый комбинированный вес на основании всех перечисленных признаков.
В данной модели вводятся псевдотермы, состоящие из пар или троек слов, которые находятся рядом и могут формировать устойчивое понятие. Простейший подход – сохранять в качестве такой пары каждую пару слов в документе. Более сложный подход вводит понятие модели языка, который рассматривает документ и запрос как статистическую Марковскую модель, которая генерирует пары или тройки слов. При поиске сравниваются статистические модели запроса и документа и принимается решение о релевантности документа запросу. Пары могут сохраняться как упорядоченные (например для английского языка) так и неупорядоченные (для русского языка и основ слов).. Также, учитывая, что пары могут разбиваться другими термами, можно добавлять в индекса пары «через одно слово» или другие варианты этой идеи.
Техническая реализация подобного подхода сталкивается с двумя проблемами. В случае хранения пар в классическом инвертированном файле, с сохранением информации о номере слова в документе, низка производительность обработки поискового запроса. Если же хранить пары как псевдотерм, то возрастает в несколько раз требуемая для хранения индекса область памяти. Поэтому используются методы сжатия индексов, фильтрации пар на основе статистических и семантических методик
В данной модели длинные тексты разбиваются на фрагменты, документ рассматривается как множество связанных подмножеств текстов и поиск производится по полученным частям документов. Цель метода – борьба со смысловой неоднородностью длинных текстов.
Простейший подход – разбиение длинного текста на части определенной длины. Благодаря средствам разметки документов появилась возможность пользоваться авторским разбиением текста, но, как показали некоторые эксперименты, иногда это дает отрицательный результат, так как создатели HTML, страниц, например, часто разбивают документы основываясь не на их семантике. Также можно разбивать текст на фрагменты, используя различную частоту встречаемости термов в различных частях длинного документа. Разделение длинных документов на фрагменты также используется при выдаче пользователю результатов поиска, пытаясь предоставить ему ту часть текста, которая должна характеризовать данный документ относительно введенного запроса.
Используются следующие гипотезы:
Поисковые системы в Интернет активно используют ранжирование документов на основе ссылок между ними. Но особенности коллекции Интернет-документов таковы, что данный подход может дать дополнительный вес нерелевантной, но сильно связанной между собой группе документов. Для борьбы с этим эффектом используются различные методики.
Также в качестве учета связей между документами может использоваться модель с переносом терминов из документа в документ по связывающей их ссылке. Такой подход широко используется в коммерческих системах. Контекст ссылки (текст, расположенный около ссылки), указывающий на некоторый документ, рассматривается как описание
этого документа. Особенно хорошо работает данный подход в случае, когда документ, указанный ссылкой, содержит мало текста, являясь графическим или иным файлом двоичного формата.