Проекты Live Internet | Page Index | Recent Changes | Recently Commented | Registration

Фрагментация документа

Разделение длинных документов на фрагменты также используется при выдаче пользователю результатов поиска, пытаясь предоставить ему ту часть текста, которая должна характеризовать данный документ относительно введенного запроса.

Возможны два основных подхода. В первом документ делится на фрагменты на этапе индексации. При этом возможны потери при поиске, так как если разные слова поискового запроса попали в разные фрагменты, то каждый из них может оказаться менее релевантным запросу, чем если бы они попали в один фрагмент. Также возможно выделение фрагментов динамическое, на этапе выдачи результата поиска.

Простейший подход – выделение фрагмента документа определенной длины, содержащего одно или несколько слов запроса. Первые версии поисковой машины Яндекс выдавали предложения, в которых встречались одно или несколько слов запроса. Для получения таких фрагментов в индексе должны храниться номера предложений, в которых содержится каждое из слов. Другой подход – метод плавающего окна, при котором для каждого слова известен его точный номер в предложении и выбирается то положение окна заданного размера, в которое попадают слова с наибольшим суммарным весом.

Также для выделения фрагментов может использоваться данные о структуре документа – авторское деление на абзацы, данные разметки документа (XML, HTML и др.). В случае, если слова запроса встретились в пределах одного окна, имеет смысл увеличить вес документа относительно данного запроса.

Файлы [Скрыть файлы/форму]