Любимов Валентин, аспирант 2го года обучения,
кафедра Алгоритмических языков ВМиК МГУ им. Ломоносова.
Научный руководитель: к.ф.м.н, доцент Абрамов В.Г.
16 апреля 2006 года.
Список вопросов на экзамен по специальности, дополнительная часть.
- Информационный поиск. Современные исследовательские задачи. Особенности задачи поиска в Интернет.
- Информационный поиск. Модель документа, классификация характеристик, классические модели информационного поиска.
- Модели документа. Теоретико-множественная модель.
- Модели документа. Алгебраическая (векторная) модель.
- Векторная модель документа. Латентно-сематический анализ.
- Теорема о сингулярном разложении.
- Тестирование поисковых систем, методы оценки качества.
- Сбор информации. Общие принципы работы интеллектуального робота. Тематический отбор документов.
- Проблемы выделения термов из документов. Морфологический анализ.
- Индексные структуры – классические подходы. Инвертированный файл.
- Реализация индексной структуры на основе B+ деревьев. Оценки эффективности.
- Методы сжатия числовой информации – коды переменной длины, коды Элиса и Голомба, кодирование Хаффмана.
- Маршрутизация запросов к распределенным коллекциям. Протоколы взаимодействия.
- Ссылочное ранжирование документов. Основные подходы и методы.
- Модели с весами слов. Выделение фрагментов, соответствующих запросу и их взвешивание.
- Тематическая классификация. Выделение тематических коллекций.
- Однодокументное аннотирование. Основные подходы.
- Многодокументное аннотирование. Основные подходы.
Литература
1. Голуб, Ч.Ван Лоун «Матричные вычисления». «Мир», Москва, 1999
2. Гринберг, Ли Гарбер «Разработка новых технологий информационного поиска». Открытые системы, 10, 1999
3. Жижимов «Введение в Z39.50»
4. Российский Семинар по Оценке Методов Поисковой Оптимизации http://romip.narod.ru
7. Д. Ватолин, А. Ратушняк «Методы сжатия данных», 2002
8. Document Clustering Based on on-Negative Matrix Factorization. Wei Xu, Xin Liu, NEC Laboratories America
9. Discourse segmentation in Aid of Document Summarization. Branimir Boguraev, Mary Neff – Watson Research Center
10. Single N-gramm Stemming. James Mayfield- John Hopkins Uiversity
11. Multi-Document Summarization By Sentence Extraction. Jade Goldstein, Mark Kantrovitz, Vibhu Mittal, Carnegie Melon University
12. XML Retrieval: What to Retrieve? Jaap Kamps,Maarten Marx, Maarten de Rijke, University of Amsterdam
13. The anatomy of News Search Engine. A. Gulli, University of Piza
14. Re Co M?: Reinforcement Clustering of Multi-Type Interrelated Data Objects. Jidong Weng,Huajun Zeng, Zheng Chen, Microsoft Research Asia