Разделение длинных документов на фрагменты также используется при выдаче пользователю результатов поиска, пытаясь предоставить ему ту часть текста, которая должна характеризовать данный документ относительно введенного запроса.
Возможны два основных подхода. В первом документ делится на фрагменты на этапе индексации. При этом возможны потери при поиске, так как если разные слова поискового запроса попали в разные фрагменты, то каждый из них может оказаться менее релевантным запросу, чем если бы они попали в один фрагмент. Также возможно выделение фрагментов динамическое, на этапе выдачи результата поиска.
Простейший подход – выделение фрагмента документа определенной длины, содержащего одно или несколько слов запроса. Первые версии поисковой машины Яндекс выдавали предложения, в которых встречались одно или несколько слов запроса. Для получения таких фрагментов в индексе должны храниться номера предложений, в которых содержится каждое из слов. Другой подход – метод плавающего окна, при котором для каждого слова известен его точный номер в предложении и выбирается то положение окна заданного размера, в которое попадают слова с наибольшим суммарным весом.
Также для выделения фрагментов может использоваться данные о структуре документа – авторское деление на абзацы, данные разметки документа (XML, HTML и др.). В случае, если слова запроса встретились в пределах одного окна, имеет смысл увеличить вес документа относительно данного запроса.