Для проверки соответствия документа заданной тематике требуется оценить близость профайла документа и профайла тематики. Профайл имеет вид вектора пар (слово, частота). Тогда оценка близости это произведение векторов – сумма для каждого слова произведения его частот в профайле документа и профайле тематики, где частота имеет значение веса данного термина в тематике. И если указанная оценка превышает порог рекомендации, то этот документ признается соответствующим заданной тематике.
Для повышения качества фильтрации слова документа приводятся к основам с помощью стемминга (отсечения окончаний) или более сложным морфологическим анализом.
Данный метод хорошо использовать для предварительной фильтрации документов, и его задача обеспечить не точность, а полноту и долю отфильтрованного мусора, т.е. доля обнаруженных фильтром нерелевантных документов по отношению к общему числу нерелевантных документов.
Более точные оценки соответствия делаются на основе анализа уже отобранных и отброшенных документов, которые уточняют изначально заданный профайл тематики.