Справочная система
Проекты Live Internet | Page Index | Recent Changes | Recently Commented | Registration

Морфологический анализ


Игнорирование изменения слова, зависимого от рода, склонения, падежа, положительно сказывается на качестве поиска и повышает его полноту. При использовании такого подхода каждое слово документа надо приводить к основе слова (общей для всех изменений этого терма) или к начальной форме слова (например, для существительных это именительный падеж единственного числа.).


В первом случае подход называется стеммингом и заключается в удалении окончания слова. Для этого используется или общий для всех слов массив возможных окончаний и выбирается максимальное по длине. Возможные возникающие проблемы: родственные слова приводятся к разным основам или неродственные слова приводятся к одной основе. Также при этом исключается возможность префиксного изменения слова (когда изменяется не только окончание, но и начало слова). Пример популярного алгоритма – Lovins Stemmer, содержащий 250 возможных окончаний для английского языка. Существуют подобные алгоритмы и для русских документов, там количество возможных окончаний исчисляется сотнями.


Более сложные методы могут быть основаны на словаре, который содержит большой набор слов и все их возможные словоформы. Этот метод точен, но имеет невысокое быстродействие и не может обрабатывать слова, не содержащиеся в нем.


Другой подход – использование формализованных правил словообразования используемого естественного языка документа. Достоинства этого метода – его быстродействие и способность обрабатывать все слова языка, недостаток – любой язык содержит большое количество исключений, которые также надо учитывать.


Для английского языка чаще всего используется Porter алгоритм, для русской морфологии используют, в том числе, свод правил грамматики Зализняка.


Часто используется комбинированный подход, когда слово сначала проверяется по словарю на особенные, исключительные, правила словообразования, а затем, если не найдено в списке исключений, обрабатывается по общим правилам


Также проблемы создает омонимия слов – когда одно и тоже написание может означать разные слова, например «стекло» как существительное и как глагол прошедшего времени.


Не для всех естественных языков морфологическая обработка слова является значимой для качества поиска. Например, в англоязычных документах наиболее популярная поисковая машина Google долгое время принципиально не использовала такой обработки, утверждая, что тем самым повышается точность поиска. В начале 2006 года эта поисковая машина запустила поиск с поддержкой правил словоизменений русского языка.


 
Файлы [Скрыть файлы/форму]
Время работы: 0.140 s
Использовано памяти: 2.261 Mb