Место издания:Издательство Московского университета
Первая страница:27
Последняя страница:28
Аннотация:Задача выделения терминов является важной частью теории обработки данных.
Термины, или ключевые слова, предоставляют краткое и формальное описание документа,
которое может быть использовано как непосредственно для выдачи пользователю (например,
в результатах поиска), так и для дальнейшей обработки. В рамках векторной модели
представления документов термины предоставляют способ построения отображения
документов в точки евклидова пространства.
В данной работе предлагается подход к решению важного частного случая общей
задачи, а именно выделения терминов, состоящих из пары слов, из текстовых документов,
предварительно разделенных на рубрики. В этом случае помимо самого содержания
документа имеется информация о его тематике. Важно, что термины не обязаны быть
устойчивыми словосочетаниями языка, но должны характеризовать документы, в которых
они встречаются, с точки зрения принадлежности к одной или нескольким рубрикам.
Для решения данной задачи предлагается алгоритм, использующий статистические
характеристики слов, встречающихся в документах коллекции. Весь алгоритм состоит
из трех этапов, на каждом из которых к множеству пар слов - кандидатов, полученных
на предыдущем этапе, применяется фильтр, отбрасывающий пары, не удовлетворяющие
определенному критерию.
На первом этапе происходит первоначальный отбор пар для дальнейшего анализа.
Для этого отбираются все пары слов, встречающиеся в документах в рамках одного абзаца на
расстоянии, не превышающем значения заданного параметра.
На втором этапе к отобранным парам применяется критерий "значимых рубрик". Для
каждой рубрики, в которой пара встречается сравнительно часто, вычисляется отношение
суммы весов каждого из слов пары в рубрике к весу самой пары в рубрике. Для прохождения
фильтра необходимо, чтобы хотя бы для одной рубрики это отношение не превышало
значения заданного параметра. Общий смысл этого критерия: слова, образующие пару,
должны сравнительно редко встречаться по отдельности и часто в паре.
На третьем, заключительном, этапе применяется критерий "характерности".
Для каждой пары вычисляется набор весов пары в рубриках, к которому применяется
функция "характерности", оценивающая, насколько характерной является пара для
некоторых рубрик из исходного множества. В итоговое множество пар слов - терминов
входят пары, имеющие показатель характерности, превосходящий значение заданного
параметра.
Для оценки качества работы предложенного алгоритма использовалась методика,
основанная на возможных сценариях его применения в рамках векторной модели
представления документов. Для этого с помощью терминов, полученных в результате
работы алгоритма, исходные документы отображались в точки, а затем оценивалось качество
этого отображения с точки зрения точности классификации, а также уровня разделения
кластеров при кластеризации. В сравнении участвовали широко используемые в этой
области алгоритмы TF-IDF и LSI. В результате для предложенного алгоритма был получен
высокий показатель точности классификации: 85% против 75% для алгоритма LSI и 70%
для алгоритма TF-IDF, а также высокое качество кластеризации: 0.8-1.0 против 0.8-1.5 для
LSI и 0.9 для TF-IDF (меньшее число означает лучший результат). Полученные результаты
свидетельствуют о высокой эффективности предложенного алгоритма и доказывают его
практическую значимость.