Разработка и исследование параллельных методов кластеризации большого количества текстовых сообщений с использованием алгоритма DBSCANдипломная работа (Бакалавр)
Аннотация:В данной работе рассмотрена задача кластеризации, возникающая в ходе анализа большого количества текстовых сообщений. Проанализированы существующие инструменты, отдельно рассмотрен программный комплекс ClusterLogs. Для задачи кластеризации представлено сравнение ряда существующих алгоритмов решения, из которых выделен алгоритм DBSCAN, основанный на плотности. Описаны параллельные версии этого алгоритма для вычислительных систем с общей и распределенной памятью,
проведено исследование и сравнение существующих параллельных реализаций. В результате исследования предложена модификация одной из версий алгоритма для распределенной памяти (PDSDBSCAN-D), которая позволяет получить более равномерное распределение нагрузки по параллельным процессам. Данная модифицированная версия внедрена в программный комплекс ClusterLogs. Вычислительные эксперименты на высокопроизводительном кластере IBM Polus показали эффективность предложенной параллельной реализации.