Проекты Live Internet | Page Index | Recent Changes | Recently Commented | Registration

Сбор Информации

Тематичческий сбор информации

При обходе очень большой коллекции документов с целью нахождения документов, соответствующих заданной тематике, часто невозможно обойти все документы коллекции, с целью проверки каждого на соответствие тематике. Поэтому при таком обходе применяются следующие техники: специализированные стратегии обхода, повышающие процент найденных тематических документов среди общего объема просмотренных, а также простая фильтрация, которая позволяет быстро отсеивать документы, точно не соответствующие тематике, уменьшая вычислительную стоимость нахождения очередного интересующего документа.

Для решения задач сбора информации используются так называемые сетевые роботы, которые получают из коллекции документы, в соответствии с некоторой очередью и, вычленяя из текстов документов гиперссылки, добавляют в очередь еще не полученные до этого документы.

У адреса в очереди имеется вес или полезность. Для нетематического поиска в качестве веса может использоваться «глубина» адреса. Или же можно использовать упрощенную версию ссылочного ранжирования Page Rank?, скачивая сначала наиболее полезные страницы. Для тематического поиска в качестве полезности стоит использовать предварительную оценку близости документа к заданной тематике.

Общая схема работы тематического интеллектуального робота такова. Скачав очередной документ, робот грубыми быстрыми методами определяет: относится ли документ к заданной тематике. Если нет, то он отсеивается, если да, то он передается анализатору для более детального анализа. Ссылки, содержащиеся в документе, предварительно ранжируются на основе грубой оценки «родительского» документа. Более детальный анализатор передает вычисленную точную оценку, для уточнения веса дочерних ссылок.

Файлы [Скрыть файлы/форму]