Существует несколько методов определения веса слов:
Как правило, используется некоторый комбинированный вес на основании всех перечисленных признаков.
Наиболее используемые методы статистического взвешивания слов в документе:
Экспериментально доказано, что учет веса документа на основании статистических характеристик улучшает качество поиска
Необходимо заметить, что при составлении данной статистике из текста исключаются шумовые или стоп-слова, которые не несут смысловой нагрузки – предлоги, союзы и др. Для поисковых систем по данным конкретного формата будут свои стоп-слова, например теги HTML разметки, которые отвечают только за оформление слов и их положение на экране. Для английского языка широко известен список стоп-слов поисковой машины Smart. Также можно составлять список шумовых слов динамически или на основании предобработки массива документов.
Помимо этого, часто в процессе работы выделяются слова, которые встречаются в тексте неестественно часто. В таком случае это или шумовое слово или, так называемый, рекламный спам. В таком случае вес этого слова остается на уровне максимально возможного или же приравнивается нулю.