Проекты Live Internet | Page Index | Recent Changes | Recently Commented | Registration

Модели документа

Первые системы информационного поиска хранили в качестве представления документа его анотацию, причем она воспринималась просто как набор слов («bag-of-words»). Далее, с ростом вычислительных возможностей техники и размеров доступной оперативной и физической памяти, стало возможно индексировать документы целиком, хранить параметры его форматирования, гипертекстовые связи между документами и другую информацию. Так, объем первых коллекций конференции TREC, посвященной оценке качества методов информационного поиска, составлял единицы мегабайт, в то время как сейчас используются даже терабайтные коллекции. Разработчики начали использовать все более и более сложные модели представления документа, пытаясь максимально использовать имеющиеся в нем данные – структуру текста, форматирование, различные элементы разметки HTML.

Развитие современных методов информационного поиска можно рассматривать как постоянное совершенствование и усложнение модели документа и методов их использования. Существует несколько моделей информационного поиска, называемых классическими.

Моделью документа обычно называют набор характеристик документа, которые учитываются системой поиска при его обработке. Характеристики делят на два типа: связанные с текстом документа и не связанные с ним атрибуты документа.

Характеристики связанные с типом документа

Термы присутствующие/отсутствующие в тексте. Под термом в данном случае подразумевается слово как минимальная синтаксически значимая единица текста

Расположение термов в тексте друг относительно друга. Слова, расположенные рядом, составляют предложения, фразы и абзацы и их взаимное расположение, очевидно, имеет ценность для информационного поиска.

Форматирование/разметка документа. Документ часто бывает отформатирован различными способами – шрифтом, стилем или языком разметки (HTML, XML). Можно использовать это для выделения более и менее значимых частей текста

Структура текста документа. Можно использовать при поиске авторскую разметку документа на абзацы, главы, параграфы. При этом будет частично учтена смысловая составляющая документа.

Ссылки на другие документы. Часто документы ссылаются друг на друга в своем тексте в виде сносок, гиперссылок или в библиографии. Эта информация характеризует отношения между документами и может быть основанием для утверждения, например, о тематической схожести документов. Эти характеристики использовались еще в «бумажной» библиографии.

Характеристики не связанные с текстом документа

Характеристики, не связанные с текстом, в системах Web поиска называются «мета – атрибутами». Такие атрибуты берутся из других источников. Для этого вида поиска в качестве таких атрибутов используется URL – адрес документа в сети Интернет, информация о времени создания или изменения документа. Также такие параметры называют «картотечными», так как они изначально указывались в библиотечном деле в картотеке.

Эти атрибуты можно разделить на:

Информация об источнике. В системах Web поиска для этого используется URL (Universal Resource Locator). В системах документооборота и информационных системах информация об источнике имеет более сложную структуру.

Время создания и последнего изменения документа.

Тематическая рубрика, к которой относится документ. Обычно документы относят к одной или нескольким тематическим рубрикам, вручную экспертами, добровольным голосованием пользователей Интернет или с помощью автоматических средств рубрикации.

Поведение пользователей по отношению к документу. Частота просмотра документа использовался и в библиотечном деле и в современных системах поиска. Также можно использовать информацию о том по ссылке

Система информационного поиска при определении модели документа, которая будет использована, выбирают набор его атрибутов, которые будут учитываться в процессе работы системы. Выбор модели определяется двумя показателями: влиянием модели на качество поиска и Вычислительной Ресурсоемкостью?. Для больших коллекций эти показатели становятся противоречивыми и более точные модели, обеспечивающие более высокое качество поиска, требуют огромных системных ресурсов, поэтому зачастую выбираются простейшие варианты хранения характеристик документа.

Файлы [Скрыть файлы/форму]