Поиск в Интернет
Можно рассматривать поиск в Интернет как практическую и известную каждому современному человеку реализацию задачи информационного поиска в коллекции документов.
Различают задачи многоцелевого поиска и специализированного поиска.
- Многоцелевой поиск. Существует несколько мировых и российских лидеров в этой области, предлагающих наиболее востребованные решения. Например поиск Google, MSN, Yahoo на западном рынке и поисковые машины Яндекс и Рамблер – на российском. Такие системы предпринимают попытки проиндексировать всю доступную в Интернете информацию (или же всю информацию на определенном языке, например русском или китайском). Принимаются произвольные поисковые запросы. Частным случаем являются поисковые системы, ищущие по конкретному сайту или группе сайтов (например тематической).
- Специализированный поиск. Такие системы предназначены для ответов на запросы, относящиеся к некоторой специализированной области. Например информацию о музыке и музыкантах, или в прогнозах погоды, среди вакансий различных фирм. В некоторых случаях извлечение такой информации поисковой системой, при отсутствии поддержки этого со стороны индексируемого ресурса, представляет особую задачу, которую можно назвать Глубинный Поиск?.
Поисковые машины является одним из двух основных форм поиска в Интернет. Помимо них стоит выделить Интернет-каталоги, которые классифицируют и аннотируют информацию об избранных ресурсах Интернета. Помимо электронных каталогов существуют также и печатные, например «Желтые страницы Интернет».
Особенности Интернет, как среды поиска, обычно выделяют следующие:
- Огромный объем доступной информации. Поисковой машиной Яндекс, например, на данный момент проиндексировано 821 073 253 различных веб-страниц. Для общемировых поисковых систем, таких как Google, эта цифра заметно выше.
- Высокий процент временной информации. Новые информационные ресурсы очень быстро появляются, меняют свое местоположение, удаляются, изменяют свое содержание. Согласно некоторым оценкам ежемесячно меняется около 40% информации.
- Неконтролируемое качество информации. В связи с отсутствием контроля, большая часть информации является устаревшей, неверной, некорректной, содержит множество различных ошибок – опечаток, граматических ошибок, ошибок оцифровки.
- Разнородность информации. Информация представлена в различных форматах, только текстовая информация представлена в десятках разных языков, алфавитах, системах кодирования.