Справочная система
Проекты Live Internet | Page Index | Recent Changes | Recently Commented | Registration

Оценка тематической близости


Для проверки соответствия документа заданной тематике требуется оценить близость профайла документа и профайла тематики. Профайл имеет вид вектора пар (слово, частота). Тогда оценка близости это произведение векторов – сумма для каждого слова произведения его частот в профайле документа и профайле тематики, где частота имеет значение веса данного термина в тематике. И если указанная оценка превышает порог рекомендации, то этот документ признается соответствующим заданной тематике.


Для повышения качества фильтрации слова документа приводятся к основам с помощью стемминга (отсечения окончаний) или более сложным морфологическим анализом.


Данный метод хорошо использовать для предварительной фильтрации документов, и его задача обеспечить не точность, а полноту и долю отфильтрованного мусора, т.е. доля обнаруженных фильтром нерелевантных документов по отношению к общему числу нерелевантных документов.


Более точные оценки соответствия делаются на основе анализа уже отобранных и отброшенных документов, которые уточняют изначально заданный профайл тематики.


 
Файлы [Скрыть файлы/форму]
Время работы: 0.133 s
Использовано памяти: 2.254 Mb