Оценка качества поиска
Исторически первые и до сих пор общепринятые критерии оценки качества информационного поиска:
- полнота (recall) -отношение количества выбраных при поиске документов к общему количеству документов, соответствующих запросу.
- точность (precision) – отношение количества попавших в результат доукументов, не соответствующих запросу, к общму количеству выбранных документов.
Факт соответствия запросу, как вещь субьективная, устанавливается несколькими людьми-экспертами, которые вручную классифицируют коллекцию, на основе поиска по которой проводится оценка качества.
Данные характеристики зависят друг от друга, при увеличении полноты, как правило, снижается точность и наоборот. Для сравнения различных поисковых систем? обычно оценивают значения точности для разных значений полноты. Но данные характеристики не всегда отражают качество работы системы с точки зрения пользователя. Помимо результирующего набора документов, удовлетворяющих запросу, для пользователя важен также порядок документов в этом наборе. Например, хочется, чтобы первые документы коллекции наиболее полно и точно соответствовали его информационной потребности, так как в больших коллекциях полный объем найденных документов зачастую невозможно просмотреть.
Ряд проблем, которые усложняют объективное сравнение влияния различных моделей и методов информационного поиска на его качество:
- Влияние тестового набора данных. Обычно используются стандартные наборы данных (TREC, LREC, РОМИП) для объективного сравнения различных систем
- Различия в реализации компонентов системы. Две поисковые системы чаще всего различаются в большом числе параметров, поэтому очень сложно отследить влияние изменения того или иного параметра (например модели представления документа) на качество поиска.
- Высокая вычислительная стоимость некоторых алгоритмов. Существуют исследовательские алгоритмы поиска, которые, на современных вычислительных ресурсах, могут быть опробованы только на относительно небольших коллекциях данных, а значит не могут быть сравнены с системами, которые индексируют более большие объемы.
- Сложность сравнения закрытых коммерческих систем. Можно лишь говорить, что данная модель подходит для коммерческого применения и выбрана разработчиками как наиболее подходящая для данной задачи.