Выделение терминов из коллекции текстов с заданным тематическим делением

Афонин, С.А.; Голомазов, Д.Д.

Авторы: Афонин С.А., Голомазов Д.Д.
Сборник: Ломоносовские чтения. Тезисы докладов научной конференции. Секция механики. Апрель 2008
Тезисы
Год издания: 2008
Место издания: Издательство Московского университета
Первая страница: 27
Последняя страница: 28
Аннотация: Задача выделения терминов является важной частью теории обработки данных. Термины, или ключевые слова, предоставляют краткое и формальное описание документа, которое может быть использовано как непосредственно для выдачи пользователю (например, в результатах поиска), так и для дальнейшей обработки. В рамках векторной модели представления документов термины предоставляют способ построения отображения документов в точки евклидова пространства. В данной работе предлагается подход к решению важного частного случая общей задачи, а именно выделения терминов, состоящих из пары слов, из текстовых документов, предварительно разделенных на рубрики. В этом случае помимо самого содержания документа имеется информация о его тематике. Важно, что термины не обязаны быть устойчивыми словосочетаниями языка, но должны характеризовать документы, в которых они встречаются, с точки зрения принадлежности к одной или нескольким рубрикам. Для решения данной задачи предлагается алгоритм, использующий статистические характеристики слов, встречающихся в документах коллекции. Весь алгоритм состоит из трех этапов, на каждом из которых к множеству пар слов - кандидатов, полученных на предыдущем этапе, применяется фильтр, отбрасывающий пары, не удовлетворяющие определенному критерию. На первом этапе происходит первоначальный отбор пар для дальнейшего анализа. Для этого отбираются все пары слов, встречающиеся в документах в рамках одного абзаца на расстоянии, не превышающем значения заданного параметра. На втором этапе к отобранным парам применяется критерий "значимых рубрик". Для каждой рубрики, в которой пара встречается сравнительно часто, вычисляется отношение суммы весов каждого из слов пары в рубрике к весу самой пары в рубрике. Для прохождения фильтра необходимо, чтобы хотя бы для одной рубрики это отношение не превышало значения заданного параметра. Общий смысл этого критерия: слова, образующие пару, должны сравнительно редко встречаться по отдельности и часто в паре. На третьем, заключительном, этапе применяется критерий "характерности". Для каждой пары вычисляется набор весов пары в рубриках, к которому применяется функция "характерности", оценивающая, насколько характерной является пара для некоторых рубрик из исходного множества. В итоговое множество пар слов - терминов входят пары, имеющие показатель характерности, превосходящий значение заданного параметра. Для оценки качества работы предложенного алгоритма использовалась методика, основанная на возможных сценариях его применения в рамках векторной модели представления документов. Для этого с помощью терминов, полученных в результате работы алгоритма, исходные документы отображались в точки, а затем оценивалось качество этого отображения с точки зрения точности классификации, а также уровня разделения кластеров при кластеризации. В сравнении участвовали широко используемые в этой области алгоритмы TF-IDF и LSI. В результате для предложенного алгоритма был получен высокий показатель точности классификации: 85% против 75% для алгоритма LSI и 70% для алгоритма TF-IDF, а также высокое качество кластеризации: 0.8-1.0 против 0.8-1.5 для LSI и 0.9 для TF-IDF (меньшее число означает лучший результат). Полученные результаты свидетельствуют о высокой эффективности предложенного алгоритма и доказывают его практическую значимость.

	ИСТИНА	Войти в систему Регистрация
	ИСТИНА ИНХС РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИСТИНА ИНХС РАН

Выделение терминов из коллекции текстов с заданным тематическим делениемтезисы доклада