Справочная система
Проекты Live Internet | Page Index | Recent Changes | Recently Commented | Registration

Вес слова в документе

Существует несколько методов определения веса слов:


Как правило, используется некоторый комбинированный вес на основании всех перечисленных признаков.


Наиболее используемые методы статистического взвешивания слов в документе:





Экспериментально доказано, что учет веса документа на основании статистических характеристик улучшает качество поиска


Необходимо заметить, что при составлении данной статистике из текста исключаются шумовые или стоп-слова, которые не несут смысловой нагрузки – предлоги, союзы и др. Для поисковых систем по данным конкретного формата будут свои стоп-слова, например теги HTML разметки, которые отвечают только за оформление слов и их положение на экране. Для английского языка широко известен список стоп-слов поисковой машины Smart. Также можно составлять список шумовых слов динамически или на основании предобработки массива документов.


Помимо этого, часто в процессе работы выделяются слова, которые встречаются в тексте неестественно часто. В таком случае это или шумовое слово или, так называемый, рекламный спам. В таком случае вес этого слова остается на уровне максимально возможного или же приравнивается нулю.


 
Файлы [Скрыть файлы/форму]
Время работы: 0.158 s
Использовано памяти: 2.261 Mb