Аннотация:Дипломная работа посвящена задаче иерархической классификации текстов. Данная работа во многом является пионерской, поскольку на кафедре Математических методов прогнозирования, которая специализируется в области анализа данных и машинного обучения, очень редко защищаются дипломные работы, посвящённые анализу текстов. Тем более, до настоящего времени не было дипломных работ, в которых классы текстов (или каких-то других объектов классификации) образуют «сложную структуру» и алгоритмы классификации должны эту структуру учитывать. Задача иерархической классификации возникает при необходимости рубрикации текстов на новостном ресурсе. Часто новости расположены в системе виртуальных каталогов, чтобы пользователь мог быстрее найти интересующую его информацию. При поступлении новости необходимо автоматически «положить» её в нужный каталог. Именно такая задача, взятая с Международного конкурса по рубрикации текстов «Large Scale Hierarchical Text classification (LSHTC) Pascal Challenge», исследовалась в дипломной работе.
Дипломница написала библиотеку в системе MatLab, в которой реализованы блоки алгоритмов классификации: предобработка данных, учёт иерархии, принятие решения об отнесении к классу; модуль для компоновки блоков в единый алгоритм и проведения экспериментов. Отметим, что обучение алгоритма классификации на рассмотренной реальной задаче за приемлемое время потребовало определённого программистского мастерства, поскольку данные имеют «огромные размеры».
Токарева Е.И. успешно справилась со всеми задачами, которые поставил ей научный руководитель: изучила методы иерархической классификации текстов, выполнила программную реализацию нескольких методов, провела эксперименты по выявлению наилучшей конфигурации алгоритма, предложила усовершенствования методов, которые позволили решить задачу конкурса с наилучшей (на сегодняшний день) точностью.