Информационный поиск [Структура]?
Задачи информационного поиска
Основная задача информационного поиска – помочь пользователю найти ту информацию, в которой он заинтересован. Из имеющегося множества информациитребуется отобрать подмножество, соответствующее информационной потребности пользователя, обычно выражаемой неким набором ключевых слов.
Классический Информационный Поиск
Классический информационный поиск – поиск документов удовлетворяющих запросу в некоторой коллекции документов.
Документ обычно определяется как некоторый текст, выделенный его автором в качестве единого фрагмента. В информационной системе, организующей поиск, обычно хранится некоторое представление данного документа (и всех остальных документов коллекции), используемое при обработке запроса.
Запрос обычно представляет собой осмысленную фразу или набор слов, описывающих информационную потребность
Результат поиска – список документов, которые отобраны системой как потенциально содержащие полезную для пользователя информацию. Этот список, как правило, упорядочен по мере уменьшения некой метрики, которую называют «весом», «степенью релеватности запросу» или оценкой вероятности того, что документ удовлетворяет запросу.
Данная задача обычно разбивается на несколько связанных с ней более технических подзадач:
- Сбор Информации. Имея доступ к некоторой коллекции документов можно рассматривать как отдельную задачу проблему обхода этой коллекции, сбора адресной и прочей информации о каждом документе, выделение уникальных документов, выявление и отбрасывание дублирующих документов. В некоторых случаях не имеется информации о том, какие документы есть в коллекции, а есть лишь правила, по которым их можно получить. Такие случаи поиска можно назвать глубинным поиском?.
- Ранжирование Документов – различные документы могут иметь различную априорную ценность для пользователя, не зависимую от его конкретной информационной потребности. Критериями такой ценности может быть авторитетность автора документа, его индекс цитируемости в других документах коллекции, его размер и тематическая целостность, время создания документа.
- Модель Документа – для организации процедуры информационного поиска требуется сохранить упрощенные модели документов коллекции. Возможны различные подходы к представлению документа и группы документов, каждая из которых более или менее подходит для каждой из возможных задач.
- Индексная Структура – отдельная задача заключается в оптимальной структуре хранения моделей документов коллекции, которая позволит максимально эффективно хранить информацию, получать к ней доступ и получать результат поиска с минимальной временной задержкой. Помимо этого, в некоторых случаях, индексная структура должна обладать свойствами масштабируемости и надежности работы при отказе некоторых ее частей. В рамках стандартных моделей индексных структур возникают также ставшие исследовательскими проблемы, например: маршрутизация запросов.
- Уточнение И Классификация Запроса?. В момент начала процедуры поиска, информационной системе требуется максимально точно определить какую в точности информацию хочет получить пользователь. Для этого используются различные средства уточнения запроса, классификации запроса – как тематической (например если запрос с большой вероятностью из автомобильной тематики, то имеет смысл рассматривать только документы, относящиеся к автомобильной тематике), так и целевой (что ищет человек – сайт, информацию или предмет).
- Оценка Качества Поиска. Существует несколько моделей оценки качества поисковой информационной системы. Имеются как автоматические средства, так и оценка путем опроса пользователей системы (субъективный характер оценки качества). По проблеме оценки качества проводятся конференции как на международном (TREC), так и на российском (РОМИП) уровне, существуют общепринятые тестовые наборы и открытые результаты качества различных информационных систем на этих наборах.
- Поиск В Интернет. Прикладная составляющая информационного поиска, поиск в огромной, гетерогенной, частоизменяющейся коллекции информации неконтроллируемого качества. В этой области находят применение все перечисленные задачи информационного поиска.
Другие задачи информационного поиска
- Кластеризация Документов?. Целью является автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества документов. Предварительные знания о возможных характеристиках групп в данной задаче не используются, группировка происходит исключительно на основании попарной схожести документов коллекции
- Классификация Документов? (Рубрикация). В данном случае информационная система определяет для каждого документа одной или нескольких заранее заданных категорий, к которым этот документ относится. Особенность задачи – предположение о том, что каждый документ обязательно относится хотя бы к одной категории. Частный случай этой задачи – Тематическая Классификация. В данном случае категориями являются различные тематические направленности, к которым может относиться документ
- Фильтрация Документов?. В данном частном случае задачи классификации используются две категории – те документы, которые удовлетворяют данному критерию, и все другие документы. Наиболее важный частный случай этой задачи информационного поиска – Тематическая Фильтрация?, т.е автоматическое определение документов, соответствующих заданной тематике, засчет отсева прочих документов.
Выделение информации из текста (text mining)
Производится анализ текстов документов и формируется выдержка из текста или массив текстовых фрагментов, которые, по оценке системы, содержат интересущую пользователя информацию. Широко исследуются и развиваются следующие варианты этой задачи:
- Автоматическое Аннотирование (Single – Document Annotation)- автоматическое составление краткого содержания большого текста, основываясь на лингвистических и статистических знаниях, а также дополнительной информации: других документах коллекции, известных свойствах аннотируемого документа.
- Многодокументное Аннотировние (Multi – Document Annotation)- аннотирование группы схожих документов, например набора статей из разных газет, посвященных одному и тому же событию, с целью предоставить связное, фактографически полное, неизбыточное содержание этих статей.
- Извлечение Информации? (Information Extraction). В данном случае ставится задача анализа коллекции документов с целью извлечения из каждого элемента коллекции информационно-ценных кусков текста. При этом известно, что каждый документ содержит информационно-бесполезные части, например с целью оформления. И известны возможные зависимости между частями документов разной информационной ценности и между документами коллекции (например, каждый документ коллекции может иметь колонтитулы на каждой своей странице, которые могут не иметь информационной ценности).