Визуально-аналитическая платформа мониторинга комплексных систем распределенной обработки данных в эпоху эксаскейлНИР

Visual analytics framework to monitor workflow management systems behavior in exascale era

Источник финансирования НИР

грант РНФ

Этапы НИР

# Сроки Название
1 2 августа 2018 г.-30 июня 2019 г. Визуально-аналитическая платформа мониторинга комплексных систем распределенной обработки данных в эпоху эксаскейл - этап 1
Результаты этапа: 1. Был проведен анализ средств и техник компьютерной визуализации, использующихся для анализа данных о вычислительных задачах распределенных систем анализа и обработки данных, который показал, что существуют подходы, позволяющие решать отдельные задачи. Например, использование стека технологий ElasticSearch, Kibana/Grafana в эксперименте ATLAS на LHC для хранения и представления данных, дает широкие возможности для визуального анализа данных. Обе системы, Kibana и Grafana, позволяют создавать конфигурируемые дашборды для мониторирования вычислительного окружения, для поиска определенных паттернов или обнаружения аномального поведения исследуемых объектов. Однако, необходимость одновременно исследовать множество графических представлений в существующих системах делает процесс визуального анализа сложным и неудобным для пользователя. В эксперименте ATLAS существует служба аналитиков, которые занимаются наблюдением за состоянием выполнения задач в распределенной вычислительной среде, с использованием перечисленных выше аналитических средств. На одном из симпозиумов в коллаборации ATLAS была озвучена проблема того, что в отслеживании различных сбоев и аномалий, и поиске возможных причин, задействовано значительное количество людей. В связи с чем разрабатываемая в данном проекте система визуальной аналитики вызвала большой интерес, поскольку потенциально она может стать средством, которое поможет существенно упростить аналитически задачи и сократить количество аналитиков, необходимых для решения подобных задач. В случае, когда необходимо анализировать большие объемы многомерных (содержащих большое количество параметров) данных, гораздо удобнее использовать различные методы кластеризации для автоматического выделения групп схожих объектов, чтобы затем исследовать эти группы более детально. Фактически, необходимо объединить возможности современной интерактивной графики с различными методами машинного обучения, предоставив тем самым пользователям более широкие аналитические возможности с сопутствующим графическим интерфейсом. 2. Проведен анализ средств и техник визуализации в смежных областях. Среди программ, позволяющих визуально анализировать данные, могут быть использованы различные математические пакеты: MathCad, MatLab, Mathematica, Maxima; пакеты, ориентированные на визуализацию: TechPlot, Origin, EasyPlot, IRIS Explorer; использование САПР. Часть программ, перечисленных выше, являются, в первую очередь, программами для математических расчётов, а визуализация в них представлена лишь в виде простейших двумерных и трёхмерных графиков. Более детально были рассмотрены функциональные возможности таких приложений как Clustervision, Clustrophile, XCluSim, Clusterix, которые предназначены для кластерного анализа данных и имеют средства интерактивной графики, позволяющие анализировать, сравнивать и интерпретировать результаты кластерного анализа. Подробно рассмотрена российская разработка - приложение Visual Analytics Tool, разработанное в лаборатории Научной визуализации НИЯУ МИФИ. Также было показано как данное приложение было использовано для анализа кредитных организаций и для решения задач многокритериальной оптимизации. Представленные системы визуальной аналитики достаточно узкоспециализированы и рассчитаны на обработку данных определенного вида. Также, в них присутствуют только двумерные графические представления данных. Хотя трехмерная графика обладает гораздо более широкими возможностями для понимания данных, их анализа и интерпретации результатов применения различных алгоритмов кластеризации. Если на двумерной сцене большая часть объектов может перекрываться, то трехмерная интерактивная сцена позволяет визуально исследовать данные со всех сторон, без перекрытий. Последняя из представленных систем, несмотря на то, что содержит функционал трехмерной визуализации данных и ориентирована на широкое применение, не имеет веб-интерфейса и потому ее достаточно сложно интегрировать с внешними источниками данных или даже адаптировать для такой интеграции. Кроме того, в ней не предусмотрена возможность работать в большими объемами данных. По этим причинам для визуального анализа метаданных систем распределенной обработки и анализа данных эксперимента ATLAS было принято решение разработать отдельную визуально-аналитическую систему с трехмерной интерактивной графикой и возможностью гибкой интеграции с различными источниками метаинформации. 3. Был выполнен сбор требований и анализ потребностей эксперимента ATLAS для применения методов визуальной аналитики и “машинного обучения”. Были определены следующие области, нуждающиеся в разработке средств визуальной аналитики. 3.1 Обнаружение связей (и влияния) между параметрами объектов данных Интерпретация параметров объектов данных и метрик в N-мерном пространстве (размерность определяется числом исследуемых параметров) для оценки взаимного влияния и определения их корреляций. 3.2 Автоматическое выявление аномалий при выполнении задач обработки, анализа и моделирования Интерпретация данных в N-мерном пространстве (размерность определяется числом исследуемых параметров) и проецирование в 3х-мерное пространство позволит производить кластеризацию объектов (по заданным параметрам и метрикам) с целью обнаружения объектов с нетипичным набором значений заданных параметров, т.н., аномальные объекты. В случае системы управления распределенными потоками заданий такими объектами данных выступают вычислительные задания (tasks) и задачи (jobs), описывающие процессы обработки данных в соответствующих специализированных системах (ProdSys2 и PanDA - подробнее они будут рассмотрены далее). Сбор необходимой информации о процессах обработки (параметры объектов и метрики) производится при формировании заданий и задач, и их последующего выполнения (возможен учет параметров и метрик, описывающих текущее состояние вычислительной среды и используемых вычислительных ресурсов). 3.3 Определение причин неэффективности процессов обработки данных Определение последовательности этапов при которых произошел сбой, задержка или ошибка в процессе обработки данных, и выявление набора значений заданных параметров в начальном этапе, послуживших причиной сбоя. 3.4 Визуальный анализ состояния сетевой активности между вычислительными центрами/хостами, и выявление причин, влияющих на снижение сетевого трафика В настоящее время в эксперименте ATLAS данные обрабатываются в более чем 130 вычислительный центрах. Для визуального анализа их взаимодействия при передаче данных используется матричное представление. Анализ матриц такого размера является затруднительным для аналитиков. Требуется разработка нового метода визуального анализа, позволяющего одновременно наблюдать общую картину эффективности взаимодействия между всеми вычислительными центрами, выбирать некоторые из них и просматривать более детально. 3.5 Определение популярности данных для динамического управления данными Популярность данных определяется количеством обращений задач анализа к наборам данных и количеством запросов на дополнительное копирование данных. При увеличении количества обращений к данным требуется автоматически создавать дополнительные копии, географически “привязанные” к месту наибольшей востребованности. Методы визуальной аналитики позволят кластеризовать данные по географическому месту хранения (ВЦ) и их востребованности в зависимости от времени. Это позволит оптимизировать требования о создании/удалении дополнительных/излишних копий данных. 4. Был проведен анализ существующей системы мониторинга и контроля для систем распределенной обработки и анализа данных эксперимента ATLAS. Выполнен обзор основных методик и средств визуализации, используемых в мониторинге. Мониторинг системы распределенной обработки данных в ATLAS - BigPanDA - включает три вида визуализации: интерактивные интерфейсы, таблицы и графики. Первичным источником данных является СУБД Oracle, которая используется системой управления рабочей нагрузкой PanDA в качестве хранилища. Извлечение данных осуществляется с помощью механизма обработки данных на основе Django. Большая часть страниц BigPanDA предназначена для представления текущего уровня объектов в иерархии, сводной информации о базовых объектах. Например, на странице задач, которая является наиболее востребованным видом мониторинга, представлены три вида таблиц: статистические распределения выборки задач по 26 основным параметрам; статистические распределения ошибок задач, где при выполнении одной задачи могло возникнуть несколько различных ошибок, относящихся к различным категориям; список задач содержит краткое описание выбранных задач. Ввиду специфичности данных основным видом визуализации, использующейся в системе являются таблицы. Активно используются 2 вида реализации таблиц - статические HTML таблицы и таблицы реализованные с помощью DataTables плагина. Статические таблицы используются для таблиц с агрегированными данными, представляющими построчное перечисление значений параметров и количество их появлений в выборке, а также таблиц с нестандартной формой с множественными объединениями ячеек. DataTables используется в таблицах, представляющих список объектов и их параметров. Но таблицы не являются единственным видом визуализации данных, использующимся системе. Активно применяются следующие виды визуализации: столбчатая диаграмма, линейная диаграмма, круговая диаграмма, диаграмма Ганта матрица. Основные функции построения графиков в системе мониторинга BigPanDA, реализованы с использованием библиотеки JavaScript D3, которая позволяет строить графики и диаграммы различной сложности в клиентской части приложения. 5. Были определены методики интегрирования программных компонент визуальной аналитики и “машинного обучения” в инфраструктуру мониторинга. Система мониторинга BigPanDA является веб-приложением. Серверная часть приложения основана на парадигме “Модель-Шаблон-Представление” предоставляемая фреймворком Django, являющимся мощным пакетом с открытым исходным кодом, написанным на языке Python. Приложение обслуживается веб-серверами Apache через интерфейс шлюза веб-сервера WSGI. Благодаря выбору фреймворка Django система поддерживает различные БД на уровне слоя абстракции “Модель”. Также приложение способно получать данные из нереляционных БД, например, ElasticSearch и Redis, использующийся как хранилище для кеша. Кроме того приложения способны загружать журналы событий используя систему распределенного управления данными Rucio и гистограммы, предоставляемые службой Dashboard. Система мониторинга BigPanDA позволяет выполнять запросы к внешним источникам и возвращать результаты в виде JSON-документов. Это позволяет интегрировать данную систему с разрабатываемой визуально-аналитической веб-платформой с помощью RESTful запросов. 6. Выполнена классификация и проведен анализ источников данных эксперимента ATLAS В эксперименте ATLAS различные системы управления, контроля и анализа накапливают метаданные о соответствующих выполняемых процессах, такая информация регистрируется на каждом этапе жизненного цикла проводимых исследований. Метаданные хранятся как в самих системах (в соответствующих базах данных с прямым доступом к данным или с использованием разработанных API), так и в отдельных хранилищах, объединяющих метаданные из разных систем (некоторые такие хранилища также могут предоставлять пользователю агрегированную информацию). В ходе выполнения работ по проекту был проведен анализ ключевых систем коллаборации ATLAS, которые используются или потенциально могут быть использованы в качестве источника метаданных для проведения анализа в InVEx. Их можно условно разделить на следующие категории по функциональному назначению: описание данных и процессов их обработки (Rucio, ProdSys2, BigPanDA monitor, DKB, AMI, ElasticSearch Analytics Cluster at UChicago), описание систем генерации данных и их представления (COOL DB, Trigger DB, Tag Catalog, Tag Files), описание вычислительных ресурсов (AGIS, PerfSONAR, NWS), описание сопутствующих процессов, связанных с выполнением различных научных проектов (JIRA ITS, GLANCE). 7. Установлены объекты анализа и выбраны технологии работы с данными для интеллектуального анализа и “машинного обучения”. Для обработки больших объемов данных, эксперименты на LHC используют вычислительную Грид инфраструктуру Worldwide LHC Computing Grid (WLCG), а также ресурсы облачных вычислений и суперкомпьютеры. Система обработки данных эксперимента ATLAS второго поколения (Production System - ProdSys2), предназначенная для выполнения комплексных вычислительных приложений, характеризуется концепцией вычислительных заданий и задач. Задание (task) содержит описание обработки данных одного датасета (группы файлов, содержащих статистически эквивалентные физические события) в эксперименте ATLAS, которое использует заданные пользователем/координатором параметры обработки и параметры, описывающие условия обработки. Задание также содержит программу преобразования/трансформации входных файлов для получения файлов приведенных данных и версии программного обеспечения. Задание состоит из набора задач. Результаты выполнения заданий, т.е. файлы, образуют входные датасеты. ProdSys2/PanDA управляет потоками заданий, включая цепочки заданий, которые выполняются в некоторой последовательности на одних и тех же датасетах. Система управляет заданиями относящимися к моделированию событий (генерация событий, моделирование детектора и др.) и к их реконструкции и анализу. Задания разбиваются на задачи, которые затем выполняются в распределенной компьютерной среде. Результатом выполнения задания могут быть, например, файлы, формирующие выходной датасет. Процессы создания цепочек заданий, их фрагментации на задачи, планирование выполнения задач, и их запуск на вычислительных ресурсах, выполняются полностью автоматизировано в системе ProdSys2/PanDA. Задача (job) представляется как единица обработки (т.н., "рабочая нагрузка" для вычислительного узла). Задача включает в себя входные и выходные файлы, исполняемый код, и, после выполнения, параметры вычислительного узла на котором задача выполнялась, включая некоторые метрики производительности. Первым этапом работ для проведения анализа данных является поиск релевантных данных и их подготовка для дальнейшего анализа. В нашем случае были выбраны метрики производительности задач в системе ProdSys2/PanDA, принадлежащих определенным заданиям. 8. Выполнена концептуальная разработка и выбор технологических решений для разработки визуально-аналитической платформы, разработан прототип архитектуры. Определены основные требования к разрабатываемой визуально-аналитической платформе: кроссплатформенность и широкая доступность для различных категорий пользователей, многопользовательское приложение (предполагаемое количество пользователей на начальном этапе применения от 10 до 100 человек), обработка и хранение больших объемов данных для анализа, возможность создания трехмерных пространственных полностью интерактивных сцен, а также двумерной интерактивной графики, возможность интеграции с внешними источниками данных. Для эффективного выполнения алгоритмов машинного обучения на стороне сервера потребуется большое количество оперативной памяти (для прототипа достаточно 32 ГБ), а также многоядерный (минимум 2 ядра) процессор. Разработан прототип архитектуры визуально-аналитической платформы. В соответствии с перечисленными выше требованиями к разработке программного обеспечения было принято решение реализовать визуально-аналитическую платформу на базе веб-технологий. Веб-приложение является легко доступным для пользователей, его можно интегрировать с внешними источниками данных, современные браузеры обеспечивают широкие возможности визуализации, включая двумерную и трехмерную интерактивную графику с использованием различных библиотек JavaScript и WebGL. Разработан прототип архитектуры визуально-аналитической платформы InVEx. Прототип включает серверные и клиентские компоненты. Серверные: Модуль провайдеров данных (Data Providers), Файловое хранилище данных, Модуль сбора статистики сэмпла с данными (Dataset Statistics), Модуль операций над данными на сервере (Server-side clusterization algorithms), Модуль группировки данных для изменения степени детализации (Level-of-Detail), Модуль сохранения истории пользовательских операций на данными (Operations History). Клиентские компоненты: Панель загрузки данных (Upload Data), Панель статистики сэмпла с данными (Dataset Info), Панель с матрицей корреляций числовый параметров (Correlations), Панель визуализации (Canvas), Панель управления визуализацией (Visualization Settings), включающая: блок изменения размерностей, группировка данных по цветам, блок кластеризации, настройки визуализации (изменение радиуса сфер, качества отображения, сброс настроек камеры, переключение между различными режимами выделения сфер, выбор темы отображения), Панель истории пользовательских операций. 9. Разработан метод обработки “сырых” данных о вычислительных задачах с целью повышения эффективности визуального анализа. Метаданные о вычислительных задачах эксперимента ATLAS накапливаются с огромной скоростью. И их количество позволяет успешно применять различные алгоритмы машинного обучения, в том числе и кластеризацию. Однако, при интеграции систем хранения метаданных эксперимента ATLAS с разрабатываемым визуально-аналитическим приложением, возникают определенные сложности, связанные с тем, что эти данные могут содержать большое количество пустых (незаполненных) значений. Кроме того, для выполнения качественного их анализа, нужна информация о типах статистических измерений, которым соответствуют эти данные. Соответственно, для того, чтобы подготовить данные для анализа, необходимо понимать не только типы этих данных (числовые, строковые, время), но и их статистические особенности. Как правило, выделяют два типа данных - категориальные и числовые. Помимо типов данных, они подразделяются на типы статистических шкал (или измерений) - качественные и количественные. Качественные, в свою очередь, делятся на номинальные и порядковые. Также выделяют два вида количественных измерений: интервальные и относительные. Для разрабатываемой визуально-аналитической платформы был реализован модуль подготовки исходных данных. Класс DatasetInfo обрабатывает исходных сэмпл с данными и формирует набор статистических данных (FeaturesStatistics) по каждому параметру. При этом тип параметров и шкала измерений определяются автоматически. 10. Были разработаны программные средства визуализации и методика их использования для кластерного анализа кортежей параметров вычислительных задач системы ProdSys2/PanDA. 10.1 В ходе решения данной задачи была разработана методика визуального анализа многомерных данных, которая представляет собой метод пространственного моделирования этих данных и позволяет использовать в процессе анализа огромные потенциальные возможности пространственно-образного мышления исследователя. Алгоритм визуального анализа данных можно представить как конвейер визуализации. Основные фазы этого конвейера: задание исходных данных, фильтрация, мэппинг, рендеринг, визуальный анализ полученных изображений. Пользователь, при этом, может итеративно запускать конвейер визуализации, параметры которого можно интерактивно менять в меню программы, после чего аналитик выбирает этап, с которого заново будут выполнены шаги конвейера визуализации. 10.2 Был рассмотрен метод кластерного анализа данных - задачи разбиения множества объектов на группы «похожих» объектов. Техника кластеризации применяется для самых разнообразных целей: для сегментации изображений, в маркетинговых исследованиях, борьбе с мошенничеством, прогнозировании, анализе текстов и многих других. На современном этапе кластеризация часто выступает первым шагом при анализе данных. После выделения схожих групп применяются другие методы, для каждой группы строится отдельная модель. Полученные в результате группы необходимо представить в наиболее удобном для интерпретации виде. Алгоритмы кластеризации на выходе выдают только группы и принадлежащие к ним объекты. Но для человека наиболее интересным является понимание того, исходя из каких характеристик эти объекты были отнесены к определенной группе. Представление результатов кластеризации призвано помочь наиболее точно интерпретировать результаты выполнения алгоритма. Одна из задач визуальной аналитики - обеспечение расширенных интерактивных средств визуализации, помогающих аналитику интерпретировать результаты кластерного анализа, и взаимодействовать напрямую как с данными, так и с применяемыми к ним алгоритмами. Для решения этой задачи было предложено два метода визуального сопровождения кластерного анализа. Первый метод основан на расчете Эвклидовых расстояний между объектами в многомерном пространстве, проецировании объектов на трехмерную сцену в виде сфер, и построении отрезков между парами сфер в случае если расстояние между соответствующими им многомерными объектами меньше порогового (пороговое Эвклидово расстояние задается пользователем в интерактивном режиме и считается максимальным внутрикластерным расстоянием). Группы соединенных точек формируют кластеры. Отдельные (удаленные) точки, расположенные далеко от всех других точек в многомерном пространстве, представляют собой аномальные объекты данных, которые будут объектом более детальных исследований. Отрезки, соединяющие кластеры, окрашиваются в цвета, которые показывают расстояния в многомерном пространстве - от большого расстояния (синий цвет) до минимального (красный). Таким образом, визуально фиксируемое наличие цилиндров между сферами позволяет аналитику фиксировать близкие точки в пространстве, образующие кластер, и соответствующие им близкие исходные объекты, также образующие свой кластер. Задание различных цветов цилиндрам позволяет делать суждения о расстоянии в исходном n-мерном пространстве при визуальным анализе пространственной сцены 3-х мерного пространства. Второй метод основан на применении различных алгоритмов кластеризации, таких как k-средних, MiniBatchKMeans, DBSCAN, HDBSCAN. При этом, как и в первом случае, каждый объект проецируется в сферу, и отображается на трехмерной сцене. Но в данном случае, вместо построения отрезков между сферами, они окрашиваются в цвета, соответствующие кластерам. И теперь суждения о близости объектов к друг другу в многомерном пространстве можно делать исходя из их цветов. Если объекты окрашены в один цвет, это значит что и в многомерном пространстве они расположены близко друг к другу. Хотя на рассматриваемой трехмерной проекции этого может и не наблюдаться. Разработанные методы кластерного анализа апробированы на данных о вычислительных задачах эксперимента ATLAS и позволили получить первые результаты относительно поиска причин аномально длительного процесса выполнения вычислительных задач. Визуальный анализ помог выделить кластеры, в которых процесс выполнения задач является нормой, и несколько аномальных кластеров. Дальнейший совместный анализ трендов показателей выделенных кластеров помог найти значения, которые оказывают наибольшее влияние на длительность выполнения задач. Для разрабатываемой визуально-аналитической платформы был выбран второй метод визуального кластерного анализа, ввиду гораздо меньшего количества объектов, необходимых для отображения. 10.3 Были разработаны программные средства для визуализации. Поскольку визуально-аналитическая платформа разрабатывается как веб-приложение, то вся графика должна выполняться на стороне клиента в браузере. Для этого используется WebGL - это низкоуровневый API для веб-приложений, который позволяет браузеру использовать ресурсы компьютера для рендеринга графики. Существует большое количество фреймворков и библиотек, которые были построены на базе WebGL, чтобы обеспечить более высокоуровневый интерфейс для API. Из них много проприетарных, например, Unity, Verge3D, multivers3D, Kubity, Coru. Но есть и некоммерческие приложения - A-Frame, Babylon.js, x3Dom, Three.js, CopperLicht, SceneJS и другие. Наиболее популярными на сегодняшний день являются библиотеки x3Dom и Three.js. Выбор программного средства был согласован с основными требованиями к разрабатываемому визуально-аналитическому приложению в части трехмерной визуализации: отображение интерактивной пространственной сцены в окне браузера с возможностью аффинных преобразований, обеспечение гибкого управления параметрами визуализации, отображение большого количества объектов на одной пространственной сцене, с возможностью интерактивного взаимодействия с каждым из них, обеспечение покадровой анимации для визуального анализа изменения данных во времени, возможность динамического изменения атрибутов объектов на пространственной сцене (цвет, размер, форма), наличие встроенных примитивов для создания плоскости, осей, и объемных фигур. Исходя из перечисленных требований, для разработки программных средств визуализации в веб-браузере была выбрана JavaScript библиотека Three.js. Библиотека работает во всех браузерах, которые поддерживают технологию WebGL; также может работать с «чистым» интерфейсом элемента CANVAS, благодаря чему работает и на многих мобильных устройствах. Three.js распространяется под лицензией MIT license. На базе выбранной библиотеки Three.js были разработаны компоненты трехмерной визуализации. компонент main.js содержит базовый класс визуализации Scene. В этом объекте задаются основные конфигурационные параметры пространственной сцены, такие как тип рендеринга, вид и исходная позиция камеры, направление освещения, отрисовка плоскости и координатных осей. Здесь же создаются JavaScript объекты, связанные с пространственной сценой - панели управления визуализацией. компонент datavisualization.js содержит класс DataVisualization, который наследуется от базового объекта Scene. В этот объект передаются данные, на основе которых создаются трехмерные сферы. При этом исходные данные разбиваются на числовые, которые можно использовать в качестве координат для отображения сфер в трехмерном пространстве, и на объектные, которые используются для выделения сфер цветом. Числовые данные, в свою очередь, передаются в исходном виде и в нормализованном. Нормализованное представление используется только для отображения объектов, а исходное - для просмотра реальных значений выделенных объектов. 11. Проведено тестирование и валидация разработанных программных средств на данных системы ProdSys2/PanDA эксперимента ATLAS. Этап анализа производительности позволил провести тестирование как отдельных компонент системы, так и всей системы. В результате данного этапа были выделены алгоритмы кластеризации удовлетворяющие требованиям по производительности для модуля Level-of-Detail Generator. Использовались различные реализации алгоритма k-средних (англ., k-means), которые превосходят другие группы алгоритмов по скорости выполнения кластеризации, объему затраченных ресурсов и предоставляемым функциям настройки (напр., явное задание количества результирующих кластеров - данный параметр используется для определения уровня детализации в модуле Level-of-Detail Generator). Проведенные эксперименты продемонстрировали, что применение распараллеливания процессов повышает производительность алгоритма k-средних, но использование реализации MiniBatch (которая включает в себе множественные оптимизационные подпроцессы) превосходит все остальные. Выполнение реализации MiniBatchKMeans превосходит выполнение обычной реализации KMeans (одной библиотеки - Sklearn) в 15 - 300 раз. Для выполнения валидации визуально-аналитической платформы на данных системы ProdSys2/PanDA были выбран сэмпл с данными, содержащий задачи анализа и обработки данных (PanDA computing jobs) для общего задания (taskid) №14498699. Данные были получены напрямую из системы мониторинга BigPanDA monitor. Полученному сэмплу с данными был присвоен уникальный идентификатор, количество записей в нем составляет 45000, индексное поле - pandaID (уникальный идентификатор вычислительной задачи в системе PanDA). Для того, чтобы визуализировать данный сэмпл была выбрана степень детализации (Level-of-Detail) равная 800. После чего был получен агрегированный сэмпл с данными, состоящий из 800 объектов, соответствующих усредненным представлениям групп объектов. Затем выполнилась отрисовка пространственной сцены из, соответственно. Полученные объекты были спроецированы в трехмерные сферы, и отображены на пространственной сцене. Для экспертов в области анализа данных эксперимента ATLAS показатель времени выполнения вычислительных задач является одним из важнейших, так как для конечных пользователей - исследователей, которые запускают задачи физического анализа в распределенной вычислительной среде, время выполнения этой задачи критично: результаты должны быть получены для представления на важнейших симпозиумах и международных конференциях по физике высоких энергий и ядерной физики. Далее было показано как разрабатываемая визуально-аналитическая платформа может помочь в анализе данных. Полученные 800 объектов были разбиты на кластеры методов k-средних. Результаты кластеризации были отображены на пространственной сцене, все объекты (сферы) были окрашены в цвета, соответствующие кластерам. Для примера были взяты две проекции, на которых четко выделен кластер красного цвета - в нем все объекты имеют большое значение durationsec (время выполнения вычислительной задачи). Для большей же части остальных объектов из других кластеров этот показатель в пределах средних значений. Необходимо определить какие показатели могут оказывать влияние на время выполнения задач. Для того, чтобы найти корреляции между трендами параметров в кластерах, мы воспользовались графиками параллельных координат. Представленный визуальный анализ позволил сделать первоначальный вывод о том, что такие показатели как средний объем оперативной памяти, свап-файлов, виртуальной памяти, количество ядер процессора, скорость чтения данных, количество прочитанных данных, сильно коррелируют со временем выполнения задач. Однако, в исходных данных присутствует большое количество нечисловых параметров, таких как коды ошибок, статус задач, наименования вычислительных центров, и многие другие, которые также нужно учитывать одновременно с числовыми показателями. Для этого принято решение предоставить пользователю возможность группировать данные по нечисловым показателям и сравнить результаты. Данный функционал на текущем этапе находится в стадии разработки и будет представлен на следующем этапе. Стоит отметить, что выполнение данного проекта было начато в НИЦ "Курчатовский институт". Однако в середине первого этапа по независящим от руководителя причинам, руководитель и основной исполнитель (Титов Михаил Анатольевич) поменяли место работы, в связи с чем грант был переведен в Московский Государственный Университет им. Ломоносова. Процедуры, связанные с переходом на новое место работы и переносом гранта в новую организацию, заняли значительной количество времени. В НИВЦ (Научно-исследовательский вычислительный центр) МГУ данный проект вызвал большой интерес, и сейчас мы планируем использовать разрабатываемую визуально-аналитическую платформу для анализа данных выполнения вычислительных задач на суперкомпьютерном комплексе в МГУ. 1. Проведен аналитический обзор в области применения методов “машинного обучения” и визуальной аналитики для систем распределенной обработки данных в гетерогенной компьютерной среде Соответствующий анализ был проведен для систем управления загрузкой и процессов обработки данных для экспериментов класса мега-сайенс. Методы и техники машинного обучения позволяют создавать математические модели для классификации, кластеризации и предсказания основных параметров подобных систем, тем самым представляют возможность рассчитать вероятность задержки или сбоя при обработке данных. Для проверки предложенных подходов была использована система обработки, анализа и моделирования данных эксперимента ATLAS на БАК (в данной систем выполняется более 30 миллионов задач обработки ежемесячно). Предиктивная аналитика была успешно использована для предсказания времени выполнения вычислительных заданий в распределенной системе обработки данных эксперимента ATLAS. В ходе анализа было показано как различные методы кластеризации можно применять совместно с интерактивной визуальной аналитикой, расширяя тем самым возможности интерпретации результатов кластерного анализа. Подход визуальной аналитики предполагает решение задач анализа данных, и в частности задач анализа многомерных данных, с использованием способствующего интерактивного визуального интерфейса. В ходе проведенного анализа были рассмотрены существующие системы визуальной аналитики для кластерного анализа многомерных данных, выявлены основные характеристики подобных систем, и функционал, который они предоставляют конечному пользователю. Проведено исследование систем мониторинга и анализа метаданных для систем распределенной обработки данных в экспериментах класса мега-сайенс (на примере эксперимента ATLAS на БАК). Исследование позволило выявить объекты для анализа и определить основные сценарии использования визуальной аналитики. Были рассмотрены существующие методы визуального анализа, преимущественно связанные с использованием средств двумерной визуализации в виде графиков, гистограмм, диаграмм, и таблиц. 2. Анализ данных систем распределенной обработки и управления эксперимента ATLAS на БАК Проведенный анализ данных метаданных систем распределенной обработки и управления эксперимента ATLAS позволил выявить основные объекты для анализа. Это вычислительные задания и задачи. Задание (task) содержит описание обработки данных одного датасета (группы файлов, содержащих статистически эквивалентные физические события) в эксперименте ATLAS, которое использует заданные пользователем параметры обработки и параметры, описывающие условия обработки. Задание состоит из набора задач. Задача (job) представляется как единица обработки (т.н., "рабочая нагрузка" для вычислительного узла). Задача включает в себя входные и выходные файлы, исполняемый код, и, после выполнения, параметры вычислительного узла на котором задача выполнялась, включая некоторые метрики производительности. Метаинформация о заданиях и задачах, выполняемых в системе распределенной обработки данных эксперимента ATLAS, содержит большое количество параметров, включая характеристики самих задач, конфигурацию программного и аппаратного обеспечения при выполнении задач, затраченное время, количество обработанных данных, различные метрики об объемах передаваемых между узлами данных, коды ошибок, статусы задач и др. Все эти показатели можно использовать для анализа процессов выполнения задач в распределенной вычислительной среде, выполнять поиск аномалий, сопоставлять тренды характеристик задач при стандартных и аномальных условиях выполнения, и делать выводы относительно того, в чем может быть причина отклонений от нормы. 3. Исследование и разработка моделей визуальной аналитики для кластерного анализа кортежей параметров вычислительных задач системы распределенной обработки эксперимента ATLAS - ProdSys2/PanDA Предложены два метода кластерного анализа многомерных данных с применением алгоритмов кластеризации и интерактивной визуальной аналитики. Первый метод основан на расчете Эвклидовых расстояний между объектами в многомерном пространстве, проецировании объектов на трехмерную сцену в виде сфер, и построении отрезков между парами сфер в случае если расстояние между соответствующими им многомерными объектами меньше порогового (пороговое Эвклидово расстояние задается пользователем в интерактивном режиме и считается максимальным внутрикластерным расстоянием). Группы соединенных точек формируют кластеры. Отдельные (удаленные) точки, расположенные далеко от всех других точек в многомерном пространстве, представляют собой аномальные объекты данных, которые будут объектом более детальных исследований. Отрезки, соединяющие кластеры, окрашиваются в цвета, которые показывают расстояния в многомерном пространстве - от большого расстояния (синий цвет) до минимального (красный). Таким образом, визуально фиксируемое наличие цилиндров между сферами позволяет аналитику фиксировать близкие точки в пространстве, образующие кластер, и соответствующие им близкие исходные объекты, также образующие свой кластер. Задание различных цветов цилиндрам позволяет делать суждения о расстоянии в исходном n-мерном пространстве при визуальным анализе пространственной сцены 3-х мерного пространства. Второй метод основан на применении различных алгоритмов кластеризации, таких как k-средних, MiniBatchKMeans, DBSCAN, HDBSCAN. При этом, как и в первом случае, каждый объект проецируется в сферу, и отображается на трехмерной сцене. Но в данном случае, вместо построения отрезков между сферами, они окрашиваются в цвета, соответствующие кластерам. И теперь суждения о близости объектов к друг другу в многомерном пространстве можно делать исходя из их цветов. Если объекты окрашены в один цвет, это значит что и в многомерном пространстве они расположены близко друг к другу. Хотя на рассматриваемой трехмерной проекции этого может и не наблюдаться. Разработанные методы кластерного анализа апробированы на данных о вычислительных задачах эксперимента ATLAS и позволили получить первые результаты относительно поиска причин аномально длительного процесса выполнения вычислительных задач. Визуальный анализ помог выделить кластеры, в которых процесс выполнения задач является нормой, и несколько аномальных кластеров. Дальнейший совместный анализ трендов показателей выделенных кластеров помог найти значения, которые оказывают наибольшее влияние на длительность выполнения задач. Для разрабатываемой визуально-аналитической платформы был выбран второй метод визуального кластерного анализа, ввиду гораздо меньшего количества объектов, необходимых для отображения. 4. Формулирование научно обоснованных рекомендаций по выбору технологий на основе полученных результатов проведенных исследований Основными рекомендациями по выбору технологий являются во-первых, использование веб-технологий, что обеспечит доступность приложения и упростит интеграцию с внешними источниками данных, во-вторых, хранение данных на сервере в реляционной или нереляционной БД, обеспечивающей быстрый доступ к данным, масштабируемость, и возможность гибкой системы запросов. Рекомендация по выбору технологии визуализации - использование WebGL, ввиду легкой интеграции в веб-приложения и наличия большого количества бесплатных JavaScript библиотек. Разработан прототип клиент-серверной архитектуры визуально-аналитической платформы. При этом все операции по обработке данных выполняются на стороне сервера, а клиент получает результирующую информацию, необходимую только для отрисовки соответствующих графических представлений. Разрабатываемая система рассчитана на объединение различных методов машинного обучения (на данном этапе рассматриваются алгоритмы кластеризаци) и широких возможностей интерактивного графического представления данных, включая трехмерные и двумерные модели (например, в виде радиальных диаграмм или параллельных координат). Пользователь может непосредственно участвовать в процессе кластеризации, меняя алгоритмы и их параметры, при этом результаты применения того или иного алгоритма будут графически отображаться в окне браузера. Результаты первого года работ вызвали интерес в ряде научных экспериментов. Участники гранта были приглашены во вновь создаваемую рабочую группу по Operations Intelligence. Если в течение первого года исследований разработанные методы и технологии в основном были продемонстрированы для эксперимента ATLAS, то в 2019/20 годах они будут использованы другими экспериментами на БАК. Участники проекта приглашены с докладом на рабочее совещание в ОИЯИ (Дубна, Россия) в мае 2019 года для обсуждения использования результатов для экспериментов на коллайдере НИКА. По тематике проекта представлены 3 доклада на международных конференциях; - GRID 2018: 10-14 сентября, ОИЯИ, Дубна, Россия VIII Международная конференция «Распределенные вычисления и грид-технологии в науке и образовании». Секционный доклад: “Search for anomalies in the computing jobs execution of the atlas experiment with the use of visual analytics” M. Grigorieva, T. Galkin, T. Korchuganova, I. Milman, V. Piluygin, M. Titov - GraphiCon 2018: 24-27 сентября, Томск, Россия. 28-я ежегодная международная конференция, посвященная компьютерной графике и машинному зрению. Секционный доклад: “Visual Cluster Analysis for Computing Tasks at Workflow Management System of the ATLAS Experiment at the LHC”, M. Grigorieva, T. Galkin, A. Klimentov, T. Korchuganova, I. Milman, S. Padolski, V. Piluygin, M. Titov. - ACAT 2019: 10-15 марта 2019 г., Швейцария, Саас-Фе, 19th International Workshop on Advanced Computing and Analysis Techniques in Physics Research. Постерный доклад: “A New Visual Analytics toolkit for ATLAS metadata”, M. Grigorieva, T. Galkin, A. Klimentov, T. Korchuganova, I. Milman, S. Padolski, V. Piluygin, M. Titov. Опубликованы две статьи в научных журналах, индексируемых в международных базах данных (Scopus, WoS). - Grigorieva M.A., Alekseev A.A., Galkin T.P., Korchuganova T.A., Milman I.E., Pilyugin V.V., Titov M.A. on behalf of ATLAS Collaboration) Search for Anomalies in the Computational Jobs of the ATLAS Experiment with the Application of Visual Analytics // CEUR Workshop Proceedings, Vol-2267, pp. 99-103, http://ceur-ws.org/Vol-2267/99-103-paper-17.pdf - T. Galkin, M. Grigoryeva, A. Klimentov, T. Korchuganova, I. Milman, V. Pilyugin, M.Titov. An Application of Visual Analytics Methods to Cluster and Categorize Data Processing Jobs in High Energy and Nuclear Physics Experiments // Scientific Visualization, 2018, volume 10, number 5, pages 32 - 44, DOI: 10.26583/sv.10.5.03, http://sv-journal.org/2018-5/03/?lang=en - Русская версия статьи: Т.П. Галкин, М.А. Григорьева, А.А. Климентов, Т.А. Корчуганова, И.Е. Мильман, В.В. Пилюгин, М.А. Титов. Применение методов визуальной аналитики для кластеризации и категоризации задач анализа и обработки данных экспериментов в области физики высоких энергий и ядерной физики // Научная визуализация, 2018, том 10, номер 5, страницы 32 - 44, DOI: 10.26583/sv.10.5.03, http://sv-journal.org/2018-5/03/index.php?lang=ru По тематике проекта подготовлены две статьи, которые будут опубликованы в журналах, индексируемых в международных базах данных (Scopus, WoS) на следующем этапе выполнения работ: - M. A. Grigorieva, M. A. Titov, A.A. Artamonov, A. A. Alekseev, A. A. Klimentov, T. A. Korchuganova, I. E. Milman, T. P. Galkin, and V. V. Pilyugin. “Evaluation of the Level-of-Detail Generator for Visual Analysis of the ATLAS Computing Metadata”. Планируется к опубликованию в специальном выпуске журнала Lobachevskii Journal of Mathematics on "Convergence of Supercomputing and Big Data Technologies: Theory and Practice" в 2019 году (Scopus). - Подготовлена и принята к печати статья “A New Visual Analytics Toolkit for ATLAS Computing Metadata” M A Grigoryeva, A A Alekseev, T P Galkin, A A Klimentov, T A Korchuganova, I E Milman, S V Padolski, V V Pilyugin, M A Titov. Будет опубликована в ACAT 2019 Proceedings (Scopus) в 2019 году. По тематике проекта представлено 4 доклада на симпозиумах по разработке программного обеспечения коллаборации ATLAS и совместных проектах по развитию ПО для экспериментов в области ФВЭ: - ATLAS Software & Computing Week #60, 1-5 октября 2018 г., ЦЕРН, Женева, Швейцария. “Use visual analytics tools to hunt for non-canonical panda jobs” (М. Григорьева) Участие в круглом столе, посвященном вопросам применения методов визуальной аналитики в ATLAS Computing - ATLAS Software & Computing Week #61, 12 декабря 2018 г., ЦЕРН, Женева, Швейцария. “Interactive visual analytics of multidimensional data for atlas computing” (М. Григорьева) “Visual analytics and its application in activities of NRNU MEPhI “Scientific Visualization” laboratory: today and in perspective” (В.В. Пилюгин) Участие в круглом столе, обсуждение методом применения разрабатываемого визуально-аналитического приложения InVEx для анализа метаданных системы распределенной обработки данных эксперимента ATLAS - Operational Intelligence Workshop, 29 апреля 2019 г., ЦЕРН, Женева, Швейцария “Interactive visual analytics application for atlas computing” (М. Григорьева) Помимо основных научных результатов, заявленных на первом этапе выполнения проекта, были получены следующие: Разработан метод интерактивного визуального анализа больших объемов данных Level-of-Detail (LoD) Generator, позволяющий уменьшить степень детализации исходных данных, существенно сократив количество объектов, одновременно отображаемых на пространственной сцене. Этот метод основан на кластеризации исходного набора объектов методом k-средних. Количество кластеров (степень детализации) задается пользователем в интерактивном режиме. Исходные объекты группируются и значения всех числовых показателей в полученных группах усредняются. В результате, после выполнения LoD клиенту передаются не все объекты, а усредненные группы, каждая из которых проецируется в сферу. Далее аналитик может выделить определенную группу, после чего откроется новое окно приложения, в котором будут представлены исходные объекты, в ней находящиеся. В случае, если этих объектов окажется много (десятки тысяч и более), можно еще раз применить метод LoD. Фактически, данный метод работает итерационно, на каждой итерации переводя исследуемые данные с более низкого на более высокий уровень детализации.
2 1 июля 2019 г.-30 июня 2020 г. Визуально-аналитическая платформа мониторинга комплексных систем распределенной обработки данных в эпоху эксаскейл - этап 2
Результаты этапа: Данный этап работ по проекту был посвящен более углубленному исследованию существующих методов и средств мониторинга вычислительной инфраструктуры экспериментов класса мега-сайенс (на примере эксперимента ATLAS на Большом Адронном Коллайдере (БАК)), анализу и разработке визуально-аналитических методов усовершенствования, оптимизации и автоматизации мониторинга, и реализации соответствующего программного инструментария. На прошлом этапе был разработан прототип системы визуальной аналитики InVEx (Interactive Visual Explorer), который позволяет во-первых, применять к исследуемым данным различные алгоритмы кластеризации, во-вторых, обеспечивает два типа визуализации данных: интерактивную трехмерную визуализацию с возможностью изменения проекций, и визуализацию методом параллельных координат, позволяющей на одной диаграмме наблюдать тренды одновременно множества параметров. Данная система была опробована для анализа метаданных вычислительных задач, выполняющихся в распределенной системе анализа и обработки данных эксперимента ATLAS, и продемонстрировала более широкие возможности исследования кластерной структуры данных (благодаря кластеризации) и графические представления данных: вместо большого количества двумерных графиков, которые удобны для точечного мониторинга каких-либо параметров в существующих системах мониторинга, InVEx позволяет исследовать корреляции между различными параметрами, а именно – анализировать тренды/корреляции одновременно множество параметров на одном изображении, и визуализировать кластерную структуру данных. Однако, система мониторинга в эксперименте ATLAS не ограничивается анализом вычислительных задач. И на данном этапе мы углубили исследования существующих средств мониторинга, выделили больше объектов для анализа. (Подробный обзор методов мониторинга в эксперименте ATLAS приведен в пункте 1 дополнительных материалов отчета). Исходя из проведенного анализа было сделано несколько выводов: - данные, которые в настоящее время представляются в виде таблиц и матриц, нуждаются в оптимизации данных графических представлений. Ввиду большого количества объектов исследования и их параметров, табличные и матричные представления становятся все менее наглядными - мониторирование вычислительных ресурсов является приоритетной задачей для обеспечения бесперебойной работы вычислительной инфраструктуры - большое внимание при мониторинге вычислительных ресурсов уделяется анализу сообщений об ошибках - требуется усовершенствование систем мониторинга и визуального анализа сетевых соединений между вычислительными центрами глобальной сети WLCG 1) Выполнена экспериментальная апробация разработанных средств визуальной аналитики в сравнении с текущими средствами системы мониторинга и контроля эксперимента ATLAS, и анализ полученных результатов Для экспериментальной апробации разработанных в рамках данного проекта средств визуальной аналитики - системы InVEx - необходимо было реализовать возможность скачивания данных из внешних источников (раздел 2 приложения к отчету). Было принято решение реализовать отдельный интерфейс для интеграции InVEx с системой мониторинга задач анализа и обработки данных – BigPanDA Monitor. В эксперименте ATLAS cистема мониторинга BigPanDA является одним из ключевых компонентов программной инфраструктуры распределенной обработки и анализа данных и позволяет извлекать данные о вычислительных задачах непосредственно из базы данных PanDA, с помощью специального API в виде JSON-словарей, которые содержат пары ключ-значение для каждого параметра задачи. Загруженные из системы мониторинга метаданные о вычислительных задачах можно далее анализировать доступными в InVEx средствами. 2) Разработаны методы группировки данных по номинальным и порядковым параметрам Очень часто анализ данных начинается с выделения схожих групп данных, с тем чтобы уменьшить количество объектов для анализа. В InVEx группировка данных выполняется на уровне Level-of-Detail (LoD) Generator. На прошлом этапе был реализован механизм понижения степени детализации исходных данных методом кластеризации MiniBatchKMeans. Кластеризация при этом выполнялась по всему набору параметров исходных данных. На текущем этапе данный функционал был существенно расширен (более подробно - раздел 3 приложения к отчету). Во-первых, добавлена возможность выбора параметров для кластеризации. Во-вторых, добавлены методы кластеризации: - K-Means (Intel DAAL) - Intel Data Analytics Acceleration Library - бесплатная библиотека для аналитики данных Intel® DAAL. Выполнение кластеризации для снижения детализации исходных данных с использованием данной библиотеки показало хорошую производительность и точность на больших объемах данных. - K-Prototypes - данный метод позволяет выполнять кластеризацию смешанных типов данных (непрерывных и категориальных величин) В-третьих, добавлены опции для группировки данных: - Group by nominal/ordinal parameter(s) - группировка по категориальным параметрам - Group by numerical continuous parameter - группировка по непрерывному числовому параметру, когда максимальное значение параметра делиться на N фрагментов и данные группируются в соответствии с выделенными фрагментами. При группировке по категориям (как и при выполнении кластеризации) пользователь должен указать 1 или более группировочных параметра. Полученные группы затем визуализируются как сферы на трехмерной сцене. Размер сфер зависит от количества объектов внутри группы. Аналитики исследует взаимное расположение этих объектов-групп в различных проекциях. Любой объект можно выбрать и посмотреть “внутрь” него, нажав на кнопку VisualizeGroup. При этом в браузере открывается новая вкладка InVEx, с данными, относящимися к выбранному объекту-группе. Дальнейшая работа с этими данными выполняется по тому же алгоритму, что и с исходными данными: их можно сразу визуализировать, или предварительно разбить на группы по какому-либо другому параметру, тем самым поэтапно уменьшая количество анализируемых объектов. 3) Расширены возможности применения различных алгоритмов кластеризации и категоризации данных в системе InVEx После того, как аналитик, работая в InVEx путем понижения степени детализации исходных данных, добивается оптимального для визуального анализа количества объектов, может возникнуть необходимость применить алгоритмы кластеризации к этим объектам. На первом этапе работ по проекту была реализована возможность применения алгоритмов K-Means и DBSCAN (кластеризация по непрерывным числовым параметрам). Последующий анализ выявил необходимость выполнять кластеризацию и по смешанным типам данных, включая категориальные. В связи с этим в систему InVEx были интегрированы несколько различных алгоритмов кластеризации, которые могут быть использованы для соответствующих задач. В частности, система была дополнена следующими алгоритмами: daal4py/kmeans, SciPy/cluster/hierarchy, kmodes/kprototypes. Более подробно перечисленные алгоритмы описаны в разделе 4 приложения к отчету. Также, в данном разделе показан пример анализа вычислительных задач эксперимента ATLAS на трех произвольно выбранных вычислительных центрах (сайтах). Проведенный анализ показал большое преимущество диаграмм параллельных координат для кластерного анализа, выявления аномалий, и отслеживания множественных корреляций, перед трехмерной визуализацией. Трехмерные изображения оказались сложны в восприятии. К тому же, эти изображения все еще требуют переключения между различными проекциями для исследования каждой тройки параметров. Конечно, подсвеченные различными цветами объекты, принадлежащие кластерам, помогают увидеть кластерную структуру в многомерном пространстве. Однако, аналитикам необходимо верифицировать полученные результаты. Параллельные координаты оказались более наглядным средством для такого анализа. В этой связи мы уделили особое внимание усовершенствованию визуализации методом параллельных координат. 4) Усовершенствована реализация визуализации методом параллельных координат В разделе 5 приложения к отчету приведен аналитический обзор работ в области визуализации методом параллельных координат. Чтобы избежать дублирования, мы еще раз детально рассмотрели уже существующие программные средства. Для разрабатываемой визуально-аналитической платформы мы можем использовать только свободно-распространяемые приложения, работающие через браузер. При этом необходима возможность интерактивного взаимодействия с элементами диаграммы (перемещение вертикальных осей, выделение сегментов на осях, выделение отдельных линий), а также наличие дополнительных интерфейсов для отображения, поиска и фильтрации данных графика (таким интерфейсом может быть связная с графиком параллельных координат таблица). Поскольку существующие приложения не обладают необходимым функционалом, можно сделать вывод о необходимости в доработке и усовершенствовании собственного инструмента для визуализации диаграмм параллельных координат, который был начат на прошлом этапе. Был существенно расширен интерфейс визуализации методом параллельных координат: добавлена связная таблица с данными (объект на графике, соответствующий выделенной в таблице строке, выделяется цветом; и наоборот), добавлена возможность группировки объектов данных по различным параметрам, при этом все группы выделяются цветом, добавлен интерфейс, обеспечивающий просмотр статистической информации для каждой выделенной группы; на прошлом этапе данный тип визуализации работал только с числовыми данными, на данном этапе функционал был расширен применением и категориальных (строковых) параметров. В разделе 5 приложения к отчету приведен пример мониторинга вычислительных ресурсов эксперимента ATLAS с использованием параллельных координат в сравнении с существующими методами мониторинга. А именно, выполнен мониторинг вычислительных ресурсов на типу ошибок, возникающих при выполнении задач анализа и обработки данных. Был показан анализ трендов одновременно 16 показателей с использованием диаграммы параллельных координат, что было весьма затруднительно сделать ранее в существующих системах мониторинга эксперимента ATLAS с использованием множества таблиц или двумерных графиков. 5) Разработана схема хранения данных для визуально-аналитической платформы Были сформулированы требования к системе хранения данных на сервере визуально-аналитического приложения: иерархическая модель хранения всех этапов изменения степени детализации данных, иерархическая модель хранения всех пользовательских операций над данными, масштабируемость, высокая скорость чтения данных. Основным критерием выбора формата хранения данных в рамках системы InVEx является возможность хранения, поиска и чтения больших объемов выборок данных (data samples), включающих в себя как загруженные “сырые” данные (немодифицированные, ненормированные, и т.д.), так и “приведенные” (т.н., модифицированные) данные. Также важно иметь единое хранилище для всего процесса анализа, чтобы помимо быстрого доступа ко всем типам данных, была возможность быстрого переноса всех наработанных результатов вместе с объектами анализа. Первоначальный подход по хранению представленных выше системных данных подразумевал использование текстовых файлов, что накладывало ограничения как на скорость доступа к данным, так и на процесс управления ими. Таким образом, на очередном этапе оптимизации был выбран формат HDF5, который позволил объединить все данные процесса анализа в единое хранилище, а также создать единую иерархическую структуру хранения для всех системных данных. В разделе 6 приложения к отчету детально рассмотрены все типы данных с которыми работает система InVEx, проведен обзор формата хранения HDF5, и описана разработанная структура хранения данных в InVEx. 6) Разработаны методы визуальной аналитики для анализа сетевого взаимодействия между вычислительными центрами системы распределенной обработки и анализа эксперимента ATLAS В рамках разработки методов визуализации на платформе InVEX были исследованы различные подходы к визуальному анализу сетевого взаимодействия и соответствующих метаданных, которые бы позволили обнаруживать различные отклонения от нормы при передаче данных: потерю пакетов, временные задержки, а также анализировать сетевые маршруты и выявлять аномальные пути или различные варианты их зацикливаний. Очевидно, что сама постановка задачи подразумевает использование графовой визуализации, и такие методы как интерактивные матрицы и тепловые карты, трёхмерные точечные диаграммы, трёхмерные участки поверхностей, относительные положения плоскостей, которые также часто используются для анализа взаимодействий между источниками и приемниками, не позволят отобразить полноценной картины происходящего. При подробном анализе возможных методов визуализации, с привлечением, на добровольной основе, экспертов в данной области из Университета Чикаго и ЦЕРН, было принято решение довести до уровня практического использования технологию визуализации, где в основе модели представления данных лежит идея представления графов в трёхмерном пространстве, с использованием сфер в качестве узлов и цилиндров в качестве рёбер. Подход с использованием графового представления сетевых путей в трёхмерном пространстве позволяет оказывать информационную поддержку специалисту в задачах оптимизации и отладки сети. В рамках выполнения работ по данному разделу было разработано приложение “PS Trace 3D Graph”, функционирующее как визуальная среда для мониторинга и анализа сетевого взаимодействия как в режиме реального времени (оперативный мониторинг), так и для ретроспективного анализа данных. В разделе 7 приложения к отчету рассмотрена архитектура сетевой инфраструктуры в ЦЕРН, обозначен метод сбора сетевых метрик - perfSONAR, приведены примеры существующих на сегодняшний день методов мониторинга различных параметров сетевого взаимодействия. Выполнено детальное описание исходных данных, на базе которых обеспечивается построение визуализации, описан конвейер визуализации, программная реализация, и в заключении приведены примеры анализа данных, которые были проведены с использованием разработанного инструментария. 7) Разработана методика кластеризации строковых данных - текстовых сообщений об ошибках при выполнении задач анализа и обработки данных эксперимента ATLAS Миллионы вычислительных задач по обработке и анализу данных выполняются ежедневно в эксперименте ATLAS. Существует комплексный набор инструментов для организации, планирования и выполнения вычислительных задач: ProdSys2 (Production System), система распределения задач PanDA (Production and Distributed Analysis system), система мониторинга BigPanDA. В связи с разнообразием внутренней структуры распределённых систем и особенностями разработки в таких системах, сбои при исполнении задач неизбежны, а их диагностика является нетривиальной задачей. Система PanDA сохраняет всю метаинформацию о ходе выполнения вычислительных задач, включая коды и описания ошибок, в случае если так или иначе задача завершилась со сбоем. Известно, что среднее количество задач со сбоем составляет 12% от общего количества выполненных задач. При анализе систем мониторинга эксперимента было показано что текстовые описания ошибок являются одной из важнейших компонент при мониторинге. Однако, обработать вручную большое количество сообщений об ошибках становится крайне сложно или практически невозможно, особенно если требуется провести ретроспективный анализ (например, исследовать все сообщения об ошибках за прошедшую неделю/месяц). Решением этой проблемы является создание метода кластеризации сообщений об ошибках, позволяющего группировать сообщения, имеющие одинаковый смысл, а также находить аномалии. С точки зрения разработки системы визуальной аналитики, кластеризация сообщений об ошибках станет еще одним методом группировки данных и их последующего визуального анализа с использованием параллельных координат и трехмерных изображений. Требования к методу кластеризации - Производительность: процесс кластеризации должен быть достаточно производительным для приложений, работающих в режиме реального времени - Заранее неизвестное количество кластеров: большинство алгоритмов кластеризации (k-средних, k-prototypes, EM) требуют заранее заданного количества кластеров, что подразумевает хотя бы приблизительное знание их числа аналитиком. В случае сообщений об ошибках невозможно заранее предсказать все возможные типы сбоев и, соответственно, число текстовых паттернов. К тому же ограничение количества кластеров ограничивает и возможность обнаружения аномальных записей. - Аномалии: обнаружение аномальных паттернов, то есть ошибок, ранее не встречавшихся, не менее важно, чем группировка схожих известных записей. - Минимизация необходимости человеческого вмешательства в процесс кластеризации: должна быть возможность автоматической настройки параметров алгоритма кластеризации в зависимости от входных данных В рамках данного проекта был разработан алгоритм кластеризации сообщений об ошибках, основанный на модели векторного представления слов и предложений, и алгоритме кластеризации DBSCAN с автоматическим подбором входных параметров. Данный процесс состоит из следующих этапов: - токенизация - разделение каждой строки на отдельные токены (термы), - подготовка данных – очищение изначального набора строк от всех подстрок, которые содержат в себе цифры, пути (включая URL), - поиск одинаковых строк - поиск эквивалентных строк, получившихся после их очищения регулярными выражениями. Как правило этот подход позволяет изначально сократить количество исследуемых паттернов в среднем на 80% - перегруппировка исходных данных по хэшам одинаковых строк - векторизация токенов – построение векторной модели токенов - векторизация предложений – преобразование векторной модели токенов в векторную модель предложений (методом усреднения и применения TF-IDF) - кластеризация методами машинного обучения – выполнение кластеризации с использованием алгоритма DBSCAN с автоматически вычисленным значением параметра. Для автоматического определения параметров и оптимизации векторной модели нам требуется несколько дополнительных шагов: снижение размерности, вычисление средней дистанции до k ближайших соседей каждого предложения в векторной модели, вычисление параметра Epsilon - внутрикластерного расстояния - перегруппировка данных по номерам кластеров: поиск общих текстовых паттернов для каждого кластера и поиск ключевых фраз. Разработанный алгоритм детально описан в разделе 8 приложения к отчету. На данный момент он реализован программно, и проходит стадию отладки и тестирования. Кроме того, были начаты работы по распараллеливанию наиболее ресурсозатратных фрагментов алгоритма для возможности его выполнения на суперкомпьютере. Планируется установка работающего фреймворка кластеризации сообщений об ошибках на суперкомпьютере Polus, установленным на факультете ВМК МГУ, для выполнения ретроспективного анализа сообщений об ошибках. 8) Подготовлены исходные данные для задач визуального анализа популярности данных в зависимости от времени и разработаны методики для визуального анализа популярности данных Распределение данных в ATLAS в настоящее время в значительной степени зависит от заданных политик/правил, которые определены на длительные периоды времени, и от создания дополнительных реплик вручную. Такая стратегия распределения привела в тому, что большое количество данных, хранящихся в грид, используется редко или вообще не используется. Помимо задач распределения данных по сети, необходимо также учитывать температуру данных. Они могут быть “горячими”, “теплыми” или “холодными”, в зависимости от популярности. Так, холодные данные логично перемещать на ленточное хранилище, теплые - на диск, горячие - кэшировать. Существуют и другие стратегии распределения, однако для их реализации в любом случае требуется оценивать популярность данных и более того, уметь ее предсказывать хотя бы в краткосрочной перспективе. Все задания по обработке и анализу данных в эксперименте ATLAS можно условно подразделить на официальные и пользовательские. К официальным можно отнести практически все этапы преобразования данных от сырого вида к формату пригодному для проведения физического анализа. Также в коллаборации естественно существуют официальные научные группы и официальные темы/исследования, которые приняты всем научным сообществом и имеют наивысший приоритет. В таких проектах анализ и обработка данных также осуществляется централизованно, все процессы при этом заранее просчитываются и хорошо координируются. А есть задачи пользовательского анализа данных: отдельный исследователь или группа ученых, запускают свои аналитические расчеты на данных эксперимента, с использованием вычислительный ресурсов ЦЕРН или своих собственных. На сегодняшний день в эксперименте ATLAS нет статистики данных, которые популярны среди отдельных пользователей для проведения анализа данных по различных неофициальным проектам. В рамках данного проекта мы планируем исследовать такую статистику, и разработать метод визуального анализа, возможно, с применением картографической визуализации, который покажет геолокацию пользователей или их институтов/университетов, и геолокацию данных, которые они запрашивают для проведения анализа. Данная визуализация позволит наглядно увидеть насколько оптимально или не оптимально распределены данные на Грид, что поможет принимать решения о создании дополнительных реплик наиболее популярных данных. Другая задача, которая может быть решена в рамках данного проекта, это анализ температуры данных для принятия решений об их распределении на ленты, диски, Google Cloud или в кэш. В разделе 9 приложения к отчету проведен обзор уже существующих методов анализа популярности данных для официальных данных и определены основные форматы данных, перечислены выбранные нами источники данных для анализа пользовательских данных, а также описан предложенный метод визуально-аналитического исследования наиболее медленных задач пользовательского анализа данных с использованием диаграмм параллельных координат. Разработанный метод является основой для дальнейших разработок. Он позволяет найти пользовательские задачи, которые выполняются аномально долго, ввиду неоптимального размещения требуемых данных на грид. 10) Проведено тестирование и валидация разработанных программных средств визуализации на задачах В рамках расширения функционала и повышения качества производимых расчетов в системе InVEx (Interactive Visual Explorer toolkit) была проведена оценка производительности и точности используемых основных алгоритмов кластеризации. Данные исследования позволили выработать методику оценки и сравнения алгоритмов (используя бенчмарки и метрики качества кластеризации), а также возможность определять этап обработки в системе InVEx на котором каждый из алгоритмов наиболее применим. Так, на первом этапе было проведено сравнение производительности нескольких реализаций алгоритмов KMeans (Scikit-learn /KMeans, Scikit-learn/MiniBatchKMeans, SciPy /KMeans, Dask-ML /KMeans). Второй этап анализа был направлен на валидацию подхода оценки производительности используя данные из другого домена и расширение методики анализа метриками качества. Для данного этапа использовались данные лога суперкомпьютера Ломоносов-2@МГУ. На данном этапе использовались следующие библиотеки: Scikit-learn (алгоритмы KMeans, MiniBatchKMeans, OPTICS), Daal4py (алгоритм KMeans), Hdbscan (алгоритм HDBSCAN). Было также выполнено тестирование визуализации - а именно, построения графика параллельных координат. Описание хода тестирования и сделанных выводов приведено в разделе 10 приложения к отчету. 11) Уточнены характеристики разрабатываемой визуально-аналитической системы, выполнена подготовка основных программных и аппаратных компонент к интеграции с внешними источниками данных эксперимента ATLAS По результатам уже проведенных работ и углубленного анализа системы мониторинга в эксперименте ATLAS, были определены характеристики разрабатываемых визуально-аналитических средств, а также выделены основные ограничения разрабатываемой системы визуальной аналитики InVEx, и возможные пути их преодоления. Стоит выделить три основные ограничения InVEx: 1) по объемам обрабатываемых данных - система на настоящий момент не предусматривает поточную загрузку больших объемов данных из различных источников и параллельное выполнение операций (в частности, кластеризации) над данными. При работе с большими объемами данных потребуются использование очередей задач, подключение суперкомпьютерных ресурсов, распределенных вычислений, что лишит систему визуальной аналитики возможности интерактивного взаимодействия. 2) по методам агрегации параметров при группировке/кластеризации данных – в настоящее время агрегация данных в модуле Level-of-Detail Generator осуществляется только методом усреднения. Однако, очень часто требуется агрегировать по сумме (SUM), по минимальным или максимальным значениям, по количеству (COUNT) и другим статистическим показателям. 3) ограничения по количеству объектов данных для визуализации – данное ограничение вполне естественно, так как человеческий глаз не может воспринимать более несколько сотен объектов на одном изображении. Поэтому в разрабатываемой системе необходимо лимитировать входной поток данных. На одно изображение не должно выводиться более 1000 объектов 4) трехмерная визуализация объектов анализа оказалась не вполне удобной для целей визуального анализа метаданных компьютинга эксперимента ATLAS, поскольку при интеграции InVEx в инфраструктуру ATLAS выявилась сложность при интерпретации трехмерных сцен. Подобные пространственные графические представления могут быть действительно удобны для анализа различных объектов, которые имеют трехмерные координаты - например, для анализа частиц, или для анализа кристаллов. В остальных случаях намного более удобны оказались диаграммы параллельных координат. Один из вариантов дальнейшего развития визуально-аналитической платформы - в доработке функционала существующего прототипа. Однако, возможен и другой путь - разделение системы на отдельные сервисы. ● сервис взаимодействия с источниками данных - интерфейсы подключения к различным источникам данных через API, скачивание данных в потоковом режиме на внутреннее хранилище, например HDFS ● сервис подготовки данных - выбор вычислительного ресурса (суперкомпьютер, локальный компьютер, удаленная машина), выполнение различных операций по обработке данных (кластеризация, и так далее), сохранение подготовленных данных на внутреннем хранилище и выдача пользователю ссылки на скачивание этих данных Сервисы визуализации: - сервис трехмерной визуализации (Three.js) - сервис параллельных координат (D3 + DataTables) - сервис графовой визуализации (Graph Three.js) - сервис картографической визуализации Поскольку анализ систем мониторинга в эксперименте ATLAS показал, что в основном для аналитических целей используются индексы ElasticSearch + системы Kibana/Grafana, которые сами по себе обладают широкими возможностями по группировке, фильтрации и визуализации данных, то логичным также представляется разработка дополнительных плагинов для Kibana/Grafana. И такая работа уже была начата разработкой плагина параллельных координат. Исходя из полученного опыта, можно сделать вывод о том, что разработать универсальную систему визуальной аналитики достаточно затруднительно. И поэтому мы пошли по пути реализации визуально-аналитических сервисов, которые могут быть эффективно использованы для вполне определенного круга задач. Научные резльтаты 1) Разработан метод группировки данных по номинальным и порядковым показателям, и визуализации результатов таких группировок в разрабатываемом визуально-аналитическом приложении InVEx Группировка или кластеризация данных во многих случаях применяется для снижения степени детализации исходных данных. Основная цель - сохранить структуру данных и уменьшить количество исследуемых объектов данных до количества, которое может быть эффективно визуализировано и интерпретировано. Предложенный в данном проекте метод предусматривает несколько опций по группировке и кластеризации: - кластеризация методом K-Means - реализация на базе высокопроизводительной библиотеки для аналитики данных - Intel Data Analytics Acceleration Library. - кластеризация смешанных типов данных методом K-Prototypes - Group by nominal/ordinal parameter(s) - группировка по номинальным или кардинальным параметрам (по категориям) - Group by numerical continuous parameter - группировка по непрерывному числовому параметру, когда максимальное значение параметра делиться на N фрагментов и данные группируются в соответствии с выделенными фрагментами. Значения параметров в полученных группах/кластерах усредняются. Таким образом, мы получаем набор агрегированных объектов-групп, которые визуализируются на 3D сцене в виде сфер различного диаметра (размер диаметра зависит от количества объектов в группе), а также проецируются на диаграмму параллельных координат. Пользователь может выбрать любую группу, и используя средства разработанного приложения, исследовать объекты внутри нее. Этот процесс можно выполнять иерархически до тех пор, пока аналитик не дойдет до оптимальной степени детализации данных. 2) Разработан метод сохранения пользовательских операций над данными, включая итеративное изменение степени детализации, а также обеспечена его программная реализация в приложении InVEx Была разработана иерархическая модель хранения всех этапов изменения степени детализации данных, и хранения всех пользовательских операций над данными. Модель хранения представляет собой иерархическую файловую систему, элементы хранения - табличные данные и их атрибуты. Реализована модель хранения на базе технологии HDF5. Для каждой пользовательской сессии по работе с данными создается HDF5-файл с заданной структурой. В него записываются исходные данные в формате numpy-массива, рассчитанные в InVEx статистические характеристики этих данных. Каждая пользовательская операция сохраняется в отдельном подкаталоге. При этом сохраняются выбранный для анализа срез данных, характеристики проводимых операций (параметры снижения степени детализации, параметры кластеризации, группировки), и результаты выполненных операций (информация о полученных группах/кластерах). 3) Разработан метод визуальной аналитики для анализа сетевого взаимодействия между вычислительными центрами глобальной инфраструктуры WLCG Сетевая инфраструктура WLCG отличается структурной сложностью и большим количеством подключенных сетевых устройств. Более 140 вычислительных центров постоянно обмениваются данными. Скорость передачи данных во многом зависит от качества сетевого соединения между источниками и приемниками данных, которая зависит от выбранных сетевых маршрутов. Благодаря тому, что почти все вычислительные центры в ЦЕРН обеспечивают измерение сетевых характеристик (сетевая задержка, пропускная способность, сетевые маршруты) с помощью perfSONAR, мы можем исследовать полученные данные методами визуальной аналитики. В рамках данного проекта нами была разработано приложение для визуального анализа сетевых маршрутов - PS Trace 3D Graph - функционирующее как визуальная среда для мониторинга и анализа сетевого взаимодействия как в режиме реального времени (оперативный мониторинг), так и для анализа исторических данных. В основе модели представления данных лежит идея представления графов в трёхмерном пространстве, с использованием сфер в качестве узлов и цилиндров в качестве рёбер. Такой подход позволяет оказывать информационную поддержку специалисту в задачах оптимизации и отладки сети. Приложение разрабатывалось при тесном сотрудничестве со специалистами ЦЕРН, которые непосредственно занимаются сбором и хранением данных о сетевых характеристиках, а также со специалистами в области аналитики сетевых взаимодействий. Работа получила большую поддержку со сторону коллаборации ATLAS. Разработчики были неоднократно приглашены и докладами на регулярные симпозиумы эксперимента ATLAS по программному обеспечению и компьютингу. Разработанное приложение в настоящее время интегрировано в инфраструктуру ЦЕРН и уже используется для мониторинга сетевых маршрутов. Оно позволяет визуально отслеживать неоптимальные маршруты, неработающие и самозамкнутые маршрутизаторы. 4) Разработан метод кластеризации строковых данных (на примере метаданных систем распределенной обработки и анализа эксперимента ATLAS) Исследование систем мониторинга в эксперименте ATLAS выявило острую необходимость в анализе сообщений об ошибках при выполнении задач анализа и обработки данных. Известно, что среднее количество задач со сбоем составляет 12% от общего количества выполненных задач. Текстовые описания ошибок являются одной из важнейших компонент при мониторинге. Однако, обработать вручную большое количество ошибок становится крайне сложно или практически невозможно, особенно если требуется провести ретроспективный анализ (например, исследовать все сообщения об ошибках за прошедшую неделю). Для решения данной проблемы нами был предложен метод кластеризации сообщений об ошибках, позволяющий группировать сообщения, имеющие схожую структуру и смысл, а также находить аномалии - сообщения, которые являются наиболее редкими. С точки зрения разработки системы визуальной аналитики, кластеризация сообщений об ошибках станет еще одним методом группировки данных и их последующего визуального анализа с использованием параллельных координат и трехмерных изображений. Предложенный алгоритм кластеризации логов сообщений об ошибках основан на модели векторного представления слов и предложений, и алгоритме кластеризации DBSCAN с автоматическим подбором входных параметров. Алгоритм состоит из следующих этапов: - токенизация - подготовка данных - поиск одинаковых строк - перегруппировка исходных данных по хэшам одинаковых строк - векторизация токенов – построение векторной модели токенов - векторизация предложений – преобразование векторной модели токенов в векторную модель предложений (методом усреднения и применения TF-IDF) - кластеризация методом машинного обучения с использованием алгоритма DBSCAN с автоматически рассчитанным внутриклестерного расстояния. Для автоматического определения параметров и оптимизации векторной модели выполняются дополнительные этапы: снижение размерности, вычисление средней дистанции до k ближайших соседей каждого предложения в векторной модели, вычисление параметра Epsilon - внутрикластерного расстояния - перегруппировка данных по номерам кластеров: поиск общих текстовых паттернов для каждого кластера и поиск ключевых фраз. На данный момент алгоритм реализован программно, и проходит стадию отладки и тестирования. Большой интерес данный метод кластеризации вызвал в коллаборациях ATLAS и CMS, которые в настоящее время активно работают над R&D проектом Operational Intelligence, направленным на увеличение степени автоматизации в задачах мониторинга. Разработчики алгоритма были неоднократно приглашены в ЦЕРН для выступления с докладами на симпозиумах коллаборации ATLAS по программному обеспечению и компьютингу. Таким образом, наша научная группа вошла в состав участников проекта Operational Intelligence, и на данный момент мы находимся на стадии внедрения разработанного инструментария в инфраструктуру ЦЕРН. Совместно с участниками указанного выше проекта в ЦЕРН был подготовлен доклад на международной конференции CHEP 2019 и подготовлена статья, принятая к печати в журнале EPJ Web of Conferences в 2020 г. (A Di Girolamo, F Legger, P Paparrigopoulos, A Klimentov, J Schovancová, V Kuznetsov, M Lassnig, L Clissa, L Rinaldi, M Sharma, H Bakhshiansohi, M Zvada, D Bonacorsi, S Rossi Tisbeni, L Giommi, L Decker de Sousa, T Diotalevi, M Grigorieva, and S Padolski // Operational Intelligence for Distributed Computing Systems for Exascale Science) 5) Предложен метод визуального анализа популярности данных (на примере метаданных систем распределенной обработки и анализа эксперимента ATLAS) Работы по анализу популярности данных ведутся в тесном сотрудничестве с сотрудниками из коллаборации ATLAS. На данном этапе работ было определено понятие популярности данных и выбраны источники данных. Мы планируем исследовать популярность тех данных, которые используются в пользовательском анализе. Популярными считаются данные, к которым наиболее часто обращаются задачи пользовательского анализа за определенный интервал времени. Одновременно с этим, пользователи могут скачивать данные на свои хранилища для проведения анализа на локальных ресурсах. Это также учитывается при оценке популярности. Важно научиться оценивать насколько соответствует расположение данных (data placement) потребностям пользователей, которые их используют. На данном этапе были найдены наиболее медленные задачи пользовательского анализа за определенный интервал времени: около 20% задач выполняются более суток, некоторые из них могут выполняться более двух недель. Необходимо понять причины столь больших задержек при выполнении. Для этого нами разработан была применена технология параллельных координат для визуального анализа статусов вычислительных задач. Данный тип визуализации позволяет отобразить сразу несколько параметров задач на одной диаграмме, и визуально оценить те задачи, которые выполнялись наиболее долго, в каких статусах они находились и на каких вычислительных сайтах они выполнялись. Исходя из этого анализа далее мы будем более предметно исследовать эти задачи и анализировать данные, которые они использовали для анализа. Одна из причин временных задержек может состоять в том, что данные долго переписывались с одного вычислительного сайта на другой, в этом случае визуальная аналитика должна помочь отследить такие ситуации. 6) По тематике проекта представлено 4 доклада на международных конференциях. The 27th International Symposium Nuclear Electronics and Computing (NEC'2019), Черногория, 30 сентября - 4 октября 2019: ● A study on performance assessment of essential clustering algorithms for the interactive visual analysis toolkit InVEx (Устный доклад), авторы: Mikhail Titov, Maria Grigorieva, Aleksandr Alekseev, Nikita Belov, Timofei Galkin, Dmitry Grin, Tatiana Korchuganova, Sergey Zhumatiy ● The Visualization Method Pipeline for the Application to Dynamic Data Analysis (Устный доклад), авторы: Galkin T., Popov D., Pilyugin V. 24th International Conference on Computing in High Energy and Nuclear Physics (CHEP 2019), Аделаида, Австралия, 4-8 ноября 2019 ● Enhancements in Functionality of the Interactive Visual Explorer for ATLAS Computing Metadata (Стендовый доклад), авторы: Grigorieva M.A., Alekseev A.A., Artamonov A.A., Galkin T.P., Korchuganova T.A., Milman I.E., Padolski S.V., Titov M.A., Klimentov A.A. MMCP-2019 Mathematical Modelling and Computational Physics, Stara Lesna, High Tatra, Slovakia, July 1-5 2019, Стара Лесна, Словакия, 1-5 июля 2019 ● Nested Intellectual Data Grouping and Clusterization for the Interactive Visual Explorer (Устный доклад), авторы: Grigorieva M., TITOV M., GALKIN T., MILMAN I. 7) По тематике проекта представлено 4 устных доклада на симпозиумах эксперимента ATLAS на БАК по программному обеспечению и компьютингу, проводимых в ЦЕРН. ATLAS Software & Computing Week #63 (30 Sep 2019, 10:00 → 4 Oct 2019, 20:00) ● Устный доклад по теме “Unsupervised error logs clusterization” M. Grigorieva ● Устный доклад по теме "PerfSonar Visualization Platform" E. Tretyakov ATLAS Software & Computing Week #64 (2 Dec 2019, 11:00 → 6 Dec 2019, 21:00) ● Устный доклад по теме: “Error logs clusterization” M. Grigorieva. ATLAS Software & Computing Week #65 (10 Feb 2020, 11:00 → 14 Feb 2020, 21:00) ● Устный доклад по теме: “Logs Clusterization for ATLAS PanDA jobs: Status Report” M. Grigorieva. Стоит также отметить, что два направления работ, проводимых в рамках данного проекта - разработка системы визуального анализа сетевого взаимодействия между вычислительными центрами WLCG и разработка метода кластеризации сообщений об ошибках - получили большую поддержку в коллаборации ATLAS. Руководитель проекта, Григорьева М.А., и исполнитель Третьяков Е.С. были приглашены в ЦЕРН на 2 недели за счет коллаборации ATLAS. За это время были проведены совещания на работам с сотрудниками эксперимента ATLAS, внесены коррективы в разрабатываемое программное обеспечение, и определены дальнейшие планы совместной деятельности. 8) Опубликованы 4 статьи в научных журналах, индексируемых в международных базах (Scopus, WoS) данных. - Grigorieva M.A., Titov M.A., Alekseev A.A., Artamonov A.A., Klimentov A.A., Korchuganova T.A., Milman I.E., Galkin T.P., Pilyugin V.V. Evaluation of the Level-of-Detail Generator for Visual Analysis of the ATLAS Computing Metadata Lobachevskii Journal of Mathematics, 40, 1788–1798 doi:10.1134/S199508021911012X (2019 г.) - Mikhail Titov, Maria Grigorieva, Aleksandr Alekseev, Nikita Belov, Timofei Galkin, Dmitry Grin, Tatiana Korchuganova, Sergey Zhumatiy. A Study on Performance Assessment of Essential Clustering Algorithms for the Interactive Visual Analysis Toolkit Invex // CEUR Workshop Proceedings, Vol-2507, p.434-438 - Timofei Galkin, Dmitry Popov, Victor Pilyugin, Maria Grigorieva. The Visualization Method Pipeline for the Application to Dynamic Data Analysis // CEUR Workshop Proceedings, Vol-2507, p.295-299 - M. Grigorieva, M. Titov , T. Galkin , I. Milman. Nested Intellectual Data Grouping and Clusterization for the Interactive Visual Explorer // EPJ Web of Conferences Volume 226 03011 (2020), doi: https://doi.org/10.1051/epjconf/202022603011 https://www.epj-conferences.org/articles/epjconf/pdf/2020/02/epjconf_mmcp2019_03011.pdf Подготовлены и приняты к печати в журналах, индексируемых в Scopus, еще 3 публикации со ссылкой на грант: 1. M A Grigorieva, A A Alekseev, T P Galkin, A A Klimentov, T A Korchuganova, I E Milman, S V Padolski, V V Pilyugin and M A Titov on behalf of the ATLAS Collaboration. A New Visual Analytics Toolkit for ATLAS Computing Metadata // EPJ Web of Conferences 2. A Di Girolamo, F Legger, P Paparrigopoulos, A Klimentov, J Schovancová, V Kuznetsov, M Lassnig, L Clissa, L Rinaldi, M Sharma, H Bakhshiansohi, M Zvada, D Bonacorsi, S Rossi Tisbeni, L Giommi, L Decker de Sousa, T Diotalevi, M Grigorieva, and S Padolski. Operational Intelligence for Distributed Computing Systems for Exascale Science // EPJ Web of Conferences 3. M A Grigorieva, A A Aleksee, T P Galkin, A A Klimentov, T A Korchuganova, I E Milman, S V Padolski, V V Pilyugin and M A Titov on behalf of the ATLAS Collaboration. A New Visual Analytics Toolkit for ATLAS Computing Metadata // Journal Of Physics: Conference Series Также готовятся еще две публикации по разработке метода визуального анализа сетевого взаимодействия между вычислительными центрами WLCG и по разработанному методу кластеризации сообщений об ошибках. На втором этапе работ была произведена замена двух основных исполнителей: Основной исполнитель первого этапа работ, В.В. Пилюгин, был заменен на А.А. Артамонова с самого начала второго этапа. В.В. Пилюгин оказал помощь в формировании научной базы проекта в роли научного консультанта. Причиной его замены явилось то, что на последующих этапах работ выявилась необходимость именно в разработчиках программного обеспечения. А.А. Артамонов, который в настоящее время является основным исполнителем, оказал большую помощь в разработке системы визуального анализа межсетевого взаимодействия, и продолжает активно содействовать успешному выполнению проекта. Основной исполнитель М.А. Титов, в связи с увольнением, был заменен на К.А. Жукова в январе 2020 года. К.А. Жуков является сотрудником факультета ВМК МГУ и в настоящее время занимается администрированием суперкомпьтеров (IBM Regatta, IBM Bluegene/P, IBM Polus) установленных на факультете ВМК. Данная замена объясняется тем, что для отработки разрабатываемых методов визуальной аналитики было принято решение часть разрабатываемых программных систем установить и использовать на ресурсах суперкомпьютеров. В частности, в настоящее время К.А. Жуков занимается задачами распараллеливания алгоритмов кластеризации сообщений об ошибках, для реализации возможности ретроспективного анализа.
3 1 июля 2020 г.-30 июня 2021 г. Визуально-аналитическая платформа мониторинга комплексных систем распределенной обработки данных в эпоху эксаскейл - этап 2
Результаты этапа: 1) Выполнена модернизация системы визуальной аналитики сетевого взаимодействия между центрами WLCG по двум направлениям: клиентская и серверная части. После модернизации система получила название TRACe route ExploRer (TRACER). Основные изменения заключаются в том, что в актуальном подходе анализируются агрегированные данные, в отличие от предыдущего подхода, где сетевой маршрут описывался отдельным замером (записью в базе данных). Актуальный подход позволяет исследовать сетевые пути в более общем смысле: анализировать распределение сетевых задержек на фрагменте сетевого пути; оценивать количество задействованных сетевых путей между центрами WLCG за определённый промежуток времени; сравнивать сетевые пути по таким показателям как общее время передачи данных, количество задействованных маршрутизаторов, количество автономных сетей и т.д. Помимо этого были проведены мероприятия по реструктуризации архитектуры и изменению используемого программного обеспечения. Реструктуризация архитектуры заключается в том, что преобразование данных для графа переведено с серверной части на клиентскую - это позволяет более гибко выстроить подходы к использованию различных систем хранения данных на стороне сервера, а клиентскую часть сделать более независимой. Также произошла замена используемого фреймворка на Javascript - переход с JQuery на ReactJS. ReactJS является более структурированным фреймворком и позволяет придерживаться особых шаблонов при разработке программного обеспечения, что в свою очередь, позволяет привлекать новые трудовые ресурсы и осуществлять активную поддержку разрабатываемого продукта. Изменение фреймворка на Javascript повлекло за собой разработку программного интерфейса с нуля. В рамках данных работ была повышена функциональность пользовательского интерфейса: удалось избавиться от универсальных тяжеловесных модулей, тем самым увеличить скорость отклика компонент пользовательского интерфейса; пользовательский интерфейс расширился индикаторами применённых фильтров и интерфейсами просмотра информации об автономных сетях путем “ленивой” подгрузки данных с сайтов третьей стороны. В рамках пользовательского интерфейса была внедрена система кэширования данных, в частности, реестр наименований центров WLCG и IP-адресов сетевых маршрутизаторов, что позволяет пользователю при составлении запроса отталкиваться в первую очередь не от временного диапазона, а от самих центров WLCG посредством указания их наименований или IP-адресов. В планы по дальнейшему развитию входит миграция на технологии обмена данными между пользователем и сервером посредством WebSocket. Использование технологии WebSocket позволит осуществлять более оперативное и интерактивное взаимодействие с данными. Также планируется переход фреймворка для серверной веб части с Django на Flask (или flask-подобные фреймворки), который в свою очередь облегчит структуру программного обеспечения и повысит возможность оперативной поддержки при разработки. (Более детально выполненные работы описаны в разделе 1 Дополнительных материалов к отчету) 2) Усовершенствован метод кластеризации и категоризации текстовых сообщений об ошибках, а также модернизирован фреймворк ClusterLogs. Была существенно расширена функциональность метода кластеризации и разработанного фреймворка ClusterLogs. Добавлена возможность подключения нескольких алгоритмов кластеризации: DBSCAN, HDBSCAN, Optics, K-means, Hierarchical. Финальный этап разработанного метода - описание кластеров путем выделения ключевых слов/n-грамм для каждого кластера, ранее был представлен одним алгоритмом - RAKE. На данный момент добавлена возможность выбора одного из 12 алгоритмов извлечения ключевых слов, реализованных в библиотеках: pke, pytextrank, rake-nltk, python-rake, spacy. (см. раздел 2, 2.1 Дополнительных материалов к отчету) Была проведена серия бенчмарков для оценки производительности системы ClusterLogs, которая показала, что более половины времени занимает токенизация сообщений. Далее по занимаемому времени следует очистка строк, перегруппировка и в конце кластеризация. Распределение времени выполнения по этапам оценено по данным, полученным из БД системы управления загрузкой эксперимента ATLAS - PanDA. На текущем этапе было реализовано распараллеливание трёх первых этапов обработки. Для добавления поддержки параллельного выполнения была выбрана библиотека mpi4py, которая предоставляет интерфейс на языке Python к библиотекам MPI, реализованным на языке C. Был реализован метод параллельного чтения текстового файла частями равного объёма. В этапах токенизации и очистки элементы журнала обрабатываются независимо. Поэтому было применено распараллеливание по данным. На этапе перегруппировки для получения каждой группы необходимо просмотреть все входные данные. Этап группировки был разделён на две части: локальную группировку и итоговую. Локальная - составляет группы из элементов одного процесса. Итоговая - объединяет и перегруппирует соответствующие группы, полученные в разных процессах. Время работы этапа кластеризации на полученных данных ввиду их малого объёма незначительно, поэтому он выполняется без изменений. Тестирование параллельной версии было выполнено на кластерной вычислительной системе факультета ВМК МГУ Полус. Для тестов были использованы данные об ошибках при выполнении задач анализа и обработки данных эксперимента ATLAS (выборка объёмом 2,5 млн. строк и 383 МБ), публично доступный журнал сообщений RAS с системы Blue Gene/L (выборка объёмом 4,5 млн. строк и 653 МБ) и журнал системы ведения очередей с системы Blue Gene/P (выборка объёмом 20 млн. строк и 658 МБ). Тесты показали явное уменьшение времени выполнения распараллеленных этапов и сокращение общего времени выполнения программы в несколько раз. (см. раздел 2.2 Дополнительных материалов к отчету) ClusterLogs включает в себя несколько методов кластеризации, которые могут возвращать различные результаты. Одной из задач анализа, таким образом, является выбор такого метода и таких входных параметров, которые будут наиболее подходящими для кластеризации конкретных данных. Для помощи в этом выборе, а также для визуальной интерпретации результатов было разработано веб-приложение, обеспечивающее графический пользовательский интерфейс к фреймворку. Оно включает в себя возможность выбора любых методов и настройки всех параметров, входящих в фреймворк ClusterLogs. Помимо возможности запуска фреймворка с нужными параметрами, данное приложение предоставляет возможность визуального анализа результатов кластеризации. Первое представление результатов для этой цели — это таблица, включающая для каждого кластера текстовые шаблоны, представляющие общие части всех сообщений в нём, а также ключевые слова и фразы, описывающие данный кластер. Вторая форма представления результатов — интерактивное графическое представление векторного пространства сообщений, каждая точка на котором соответствует текстовому шаблону, представляющему некоторое количество сообщений, а их размер, цвет и взаимное местоположение позволяют наглядно увидеть взаимное расположение сообщений, входящих в те или иные кластеры. Наконец, приложение включает в себя инструменты для помощи в подборе параметров, что для метода кластеризации DBSCAN заключается в графике расстояний до k соседей, используемом для автоматического вычисления параметров. (см. раздел 2.3 Дополнительных материалов к отчету) Разработанное приложение позволило нам провести сравнительный бенчмарк различных методов кластеризации на наборе данных сообщений об ошибках из системы PanDA, которая отвечает за выполнение вычислительных задач на распределённых вычислительных ресурсах. Анализ показал, что для этого набора данных DBSCAN является оптимальным методом кластеризации. Для оценки качества кластеризации фреймворк ClusterLogs был интегрирован в систему мониторинга Monit Grafana: создана тестовая аналитическая панель, которая позволяет извлекать из системы мониторинга метаданные сервиса Harvester, который позволяет оптимальным образом использовать вычислительные ресурсы исходя из типа, размера и архитектуры ресурса. Данные о сбоях в работе Harvester извлекаются за выбранные интервалы времени, на их основе выполняется кластеризация сообщений об ошибках, сгруппированная по вычислительным ресурсам. Это позволяет аналитикам оценивать насколько корректно работает кластеризация, и анализировать сбои, наиболее типичные для определенных ресурсов. (см. разделы 2.4-2.5 Дополнительных материалов к отчету) 3) Разработан отдельный сервис визуализации методом параллельных координат, с возможностью визуализации строковых/категориальных данных, временных шкал. Сервис ParallelCoordinates был разработан как веб-приложение, позволяющее представлять CSV-данные в виде соответствующих интерактивных диаграмм. Подобная визуализация позволяет исследователю быстро получить общее понимание о наборах многомерных данных самой различной природы. Объекты данных на диаграмме могут быть сгруппированы по любой переменной, а затем соединительные линии окрашиваются в соответствующие группам цвета. При группировке данных появляется таблица со статистическими данными по группам: минимальное, среднее и максимальное значение переменной, стандартное отклонение для числовых переменных или распределение уникальных значений - для категориальных. На диаграмме пользователь может выбирать определенные сегменты на осях и тем самым ограничивать видимость некоторых линий на графике. Это позволяет исследовать определенную группу линий. Данный метод обычно называют “брашинг”. Разработанный сервис может использоваться как отдельный клиентский модуль, а также может быть легко интегрирован в веб-приложения, в том числе в такие как Kibana, что сделает его более доступным для пользователей. (см. раздел 3 Дополнительных материалов к отчету) 4) Разработан визуально-аналитический сервис для выявления причин медленного выполнения задач пользовательского анализа данных. В настоящее время в эксперименте ATLAS выполняются сложные преобразования над большими объёмами данных. Данные обрабатываются в вычислительных центрах по всему миру в сети WLCG. Количество заданий анализа и обработки данных может достигать сотен тысяч в сутки. Задания (tasks) разделяются на небольшие вычислительные задачи (jobs), которые распределяются по доступным вычислительным ресурсам (computing sites). За данный процесс отвечает компонент JEDI (Job Execution and Definition Interface). По мере выполнения заданий, их статус как правило изменяется от registered (только что добавлено в систему) до ряда конечных статусов: finished (успешно выполнено), failed (завершено со сбоем) и т. д. Все статусы, через которые проходит задание и задача регистрируются в базе данных системы управления загрузкой ATLAS PanDA. Анализ данных за различные интервалы времени показал, что некоторые задания выполняются значительно дольше других (иногда время выполнения задания может достигать 60 дней). Их можно условно назвать “медленными”. Если речь идет о пользовательском анализе данных, то время выполнения задания становится особенно важно в преддверии международных тематических конференций. Исследователи запускают задачи физического анализа и им необходимо получить результат за определенный срок. И задача распределенной вычислительной сети - обработать данные и выдать пользователю результат как можно скорее, обеспечив процесс выполнения задания таким образом, чтобы оно как можно меньше находилось в очереди или состоянии “простоя”. В коллаборации ATLAS в настоящее время активно развивается направление исследований, связанное с анализом процесса выполнения заданий. Некоторые исследования показывают, что одной из причин медленного выполнения заданий может являться пренебрежение пользователей к оптимизации собственных вычислений. В некоторых случаях диспетчер задач может недостаточно оптимально распределить задачи по вычислительным центрам. В данном проекте было разработано веб-приложение, интегрированное с базой данных системы управления загрузкой - PanDA, и позволяющее выполнять визуальный анализ процесса выполнения вычислительных заданий. Для этого используются три типа визуализации: 1) Диаграммы размаха времени выполнения заданий в указанный промежуток времени: на ней указаны медианные значения, а также значения квартилей и границ. Точками обозначаются выбросы, которые являются самыми долго выполнявшимися заданиями. 2) Точечные диаграммы рассеяния изменения статусов заданий позволяют визуально оценить как выполнялись самые медленные задания в выборке: сколько времени задания были в простое, сколько времени они непосредственно выполнялись, как долго они находились в очередях, и др. 3) Диаграммы параллельных координат для совместного анализа нескольких характеристик вычислительных задач. Пользователь может выбрать одно задание и исследовать его выполнение: для этого используются диаграммы, показывающие процесс выполнения всех вычислительных задач, на которые было распределено данное задание. Диаграмма рассеяния позволяет во-первых, выявить наличие перезапусков заданий, во-вторых, обнаружить временные простои, в-третьих, отследить как вычислительные задачи выполнялись на определенных ресурсах (сайтах). А параллельные координаты позволяют проследить более тонкие корреляции: например, из какого статуса задачи чаще всего переходят в состояние "failed", в каком состоянии задачи проводят больше всего времени и на каком вычислительном ресурсе, и др. В настоящее время аналитическое приложение установлено на ресурсах в ЦЕРН и используется для мониторинга процесса выполнения вычислительных заданий. В дополнительных материалах к отчету приведены примеры аналитических задач, которые позволяет решать разработанная система. (см. раздел 4 Дополнительных материалов к отчету) 5) Разработан сервис визуализации для анализа популярности данных. В рамках данного проекта был пересмотрен метод оценки популярности данных ATLAS. До сегодняшнего дня популярность данных оценивалась как мера частоты обращения к ним за определенный промежуток времени. Наши визуально-аналитические методы анализа позволили увидеть, что далеко не всегда количество обращений может являться единственным критерием популярности. Помимо этого необходимо оценивать и количество пользователей, обратившихся к данным, и степень распределенности этих пользователей по институтам и странам. Таким образом мы предложили интегральную оценку популярности данных исходя из нескольких параметров: количество вычислительных заданий, обратившихся в данным; количество пользователей, запустивших задания; количество институтов, к которым приписаны пользователи; количество стран, в которых находятся институты. (см. раздел 5.1 Дополнительных материалов к отчету) Наряду с оценкой популярности, были определены данные, которые необходимы для более детального анализа процесса выполнения заданий/задач физического анализа. Мы использовали специализированное хранилище Data Popularity на базе ElasticSearch. Собранные в хранилище данные условно можно поделить на несколько категорий: данные о датасетах (формат, тип, название проекта, описание физического процесса, тэги обработки, объем, количество и размещение реплик), данные о вычислительных заданиях (даты начала и завершения, статус, количество перезапусков, и временные характеристики каждого перезапуска, объем входных и выходных данных), данные о пользователях, запустивших задания (имя пользователя, домашний институт, страна, геолокация страны), данные о сайтах, очередях, на которых выполнялись задачи обработки данных и на которых хранятся реплики датасетов (включая геопривязку, что необходимо для создания картографических визуальных представлений). В совокупности имеющиеся параметры позволяют оценить и популярность, и процесс выполнения популярных данных. После определения источника данных нами были разработаны визуально-аналитические методы для анализа популярности данных ATLAS, используемых для пользовательского анализа. Под данными ATLAS мы понимаем наборы данных (или датасеты). Датасет – это совокупность файлов с данными, которые обрабатываются совместно и являются входным/выходным набором для различных вычислительных задач. Было предложено использовать визуализацию в виде тепловых карт для общей оценки популярности данных и для более детального анализа по вычислительным ресурсам, столбчатые диаграммы для оценки эффективности использования дискового пространства на различных ресурсах, а также картографическую визуализацию для визуализации стран и институтов на карте, наиболее заинтересованных в анализе определенных данных, и для визуализации загруженности вычислительных ресурсов. В совокупности предложенные виды визуализации позволяют количественно оценивать метрики популярности и характеристики процесса выполнения заданий, и визуально обнаруживать корреляции между параметрами. Стоит особо отметить, что в ходе работ нами были получены данные о ходе выполнения задач на определенных вычислительных ресурсах: время выполнения, время задержки, объем обработанных данных, количество обработанных файлов. Эта информация может являться основой для дальнейшего применения алгоритмов машинного обучения и/или нейросетей для прогнозирования времени выполнения задач на ресурсах, а также для автоматизированного определения оптимального размещения реплик данных на вычислительных сайтах. Эти работы потенциально позволят реализовать автоматизированный механизм динамический репликации данных в зависимости от их популярности. (см. раздел 5.2 Дополнительных материалов к отчету) 6) Модернизирована архитектуры визуально-аналитической платформы. На текущем этапе выполнения Проекта была модернизирована архитектуры разработанной на первых этапах платформы визуальной аналитики InVEX. При этом были разработаны основные программные компоненты платформы, и она была испытана для визуального анализа популярности данных и процесса выполнения вычислительных заданий пользователей. При модернизации был учтен опыт, полученный на предыдущих этапах работы. А именно: - для систем визуального анализа критически важно обеспечение гибкой фильтрации данных, поскольку пользователям, как правило, необходимо итерационно и интерактивно взаимодействовать с данными, анализировать их, применяя различные фильтры, группировки и типы агрегационных функций; - система должна легко адаптироваться к изменению схемы хранения данных, добавлению новых источников данных; - визуально-аналитическая система должна поддерживать модульность, возможность подключения различных графических представлений данных; - система должна быть расширяемой и масштабируемой; - операции по снижению размерности (агрегированию) данных лучше выполнять не внутри интерфейса платформы, как это было сделано в системе InVEX, а вне ее, поскольку возложение этих функций на систему визуальной аналитики делает ее сложной и менее понятной для пользователя/аналитика. Учитывая вышеперечисленное, потребовалась масштабная переработка исходной версии платформы визуализации. Модернизированная платформа реализована на базе современных веб-технологий, в ее основу заложена идея создания конфигурируемых фильтров и пользовательских дэшбордов, в каждом из которых могут присутствовать различные подключаемые визуальные отображения. При необходимости поддержания гибкого масштабирования каждой составляющей платформы возможен переход к развёртыванию в среде Kubernetes путём контейнеризации сервисов и приложений. При переходе в среду Kubernetes возможны замены программного обеспечения платформы, например, RabbitMQ на Redis и Celery на непосредственный запуск задач в Kubernetes. Данные замены никак не повлияют на конечный результат. Платформа визуального анализа данных характеризуется высокой модульностью, что позволяет интегрировать её со множеством SQL и NoSQL хранилищ данных, а также обеспечивать масштабирование структурных единиц в таких средах как Kubernetes. Платформа реализована посредством обмена информацией между программным интерфейсом и пользовательским интерфейсом при помощи технологии WebSocket, которая обеспечивает взаимодействие пользователя с серверной частью в режиме реального времени и повышает гибкость работы за счёт удобных форматов пересылаемых данных. Серверная часть платформы реализована при помощи программного обеспечения Flask на языке Python. Она обеспечивает доставку и предобработку данных из Elasticsearch. Клиентская часть реализована при помощи JavaScript фреймворка React и программных пакетов для построения диаграмм и графиков react-vis и построения картографических визуализаций deck.gl. При реализации платформы для визуализации особое внимание уделялось подходу к динамической генерации пользовательского интерфейса, который повышает гибкость системы и позволяет системе быть устойчивой к частому изменению схемы хранения данных. Изменение схемы хранения данных не влияют на программную реализацию пользовательского интерфейса, а внесение изменений в схему хранения данных может осуществляться на «горячую», т.е. без выключения или перезапуска клиентской части. Аналогичный подход использован при работе с дашбордами. В актуальной версии платформы для визуализации используется предустановленный набор дашбордов, который хранится в формате JSON файлов. Предусматривается написание отдельного модуля для пользовательского интерфейса, который будет служить конструктором для пользовательских дашбордов. Использование собственной платформы позволяет использовать большое количество инструментов для визуализации, например, помимо стандартных таблиц, графиков и диаграмм, трёхмерные географические карты, трёхмерные ориентированные и неориентированные графы, графы в форме протекающих процессов (“sankeys”) и многое другое. Разработанная платформа была испытана для анализа популярности данных. Для этого была выполнена ее интеграция с полнотекстовым хранилищем информации о популярности данных (на базе ElasticSearch), разработаны конфигурационные файлы для начального статистического анализа всех параметров исходных данных и построения фильтров, а также реализованы базовые аналитические панели для анализа популярности данных, которые визуализируют таблицы в виде тепловых карт с основными параметрами популярности и процесса выполнения задач, в том числе с детализацией по вычислительным ресурсам. (см. раздел 5.3 Дополнительных материалов к отчету) Руководителем проекта, Григорьевой М.А., были прочитаны лекции по тематике гранта в рамках спецкурса для магистров МИФИ первого года по специальности "Физика частиц и ядерная физика". Название спецкурса: "Информационные технологии в физике элементарных частиц". Темы лекций, относящиеся непосредственно к тематике Проекта: - Системы управления данными физического эксперимента: передача данных, популярность данных. Системы для обработки и анализа данных - Системы мониторинга распределенных систем анализа и обработки данных - Проект Operational Intelligence и методы визуализации научных данных. - Современные средства анализа журнальных файлов. Мониторинг вычислительных ресурсов по сообщениям об ошибках - Анализ популярности данных эксперимента ATLAS на БАК: методы и средства Также была прочитана открытая он-лайн лекция на английском языке для студентов Института Международных Отношений НИЯУ МИФИ, в которой о работах проекта было рассказано иностранным студентам: https://www.youtube.com/watch?v=Mvtw9oK7oGc Основной исполнитель проекта, Артамонов А.А., читал спецкурс "Системология и теория технологических организаций" для магистров МИФИ по специальности "Международные отношения", в который также вошли лекции по тематике Проекта. А именно: - Эксперименты в области физики элементарных частиц на Большом Адронном Коллайдере. Вычислительная и сетевая инфраструктура эксперимента ATLAS на БАК - Системы мониторинга распределенных систем анализа и обработки данных в эксперименте ATLAS на БАК - Измерения сетевого взаимодействия между вычислительными центрами Worldwide LCG Computing Grid, системы мониторинга сетевой активности и анализ сетевых маршрутов - Процесс выполнения вычислительных заданий и задач в эксперименте ATLAS на БАК Была произведена замена основного исполнителя, Жукова К.А., на Третьякова Е.С. Замена связана с тем, что Третьяков Е.С. принял активное участие в модернизации визуально-аналитической платформы на последнем этапе выполнения проекта и его роль в выполняемых работах стала ключевой. Жуков К.А. остался в составе исполнителей проекта и занимается развитием методов распараллеливания для разрабатываемых в рамках Проекта алгоритмов. Научные результаты 1) Реализована модернизированная версия системы визуальной аналитики сетевого взаимодействия между центрами WLCG для ЦЕРН Разработана система TRACER (TRACe route ExploRer) для визуального анализа сетевого взаимодействия между вычислительными центрами WLCG (Worldwide LCG Computing Grid). Система реализована как веб-приложение, интегрированное с хранилищем сетевых измерений PerfSONAR, выполняющимися на регулярной основе между каждой парой вычислительных центров, и позволяющее визуализировать сетевые маршруты между центрами с использованием трехмерных направленных графов. Сетевой маршрут представляется как узел-источник, узел-приемник, и все промежуточные звенья между ними. Каждому узлу присвоен IP-адрес и имя хоста. Расстояние между узлами графа (ребра) соответствует скорости передачи данных. Неработающие узлы подсвечиваются красным цветом. Анимация позволяет визуально оценить скорость передачи данных между узлами. Визуализация полностью интерактивна: узлы графа кликабельны и могут перемещаться. В отдельных блоках приложения приводятся сводные таблицы обо всех представленных на графе маршрутах. Для анализа скорости передачи данных во времени используется специализированная статистическая визуализация - violin chart, которая позволяет оценить среднюю скорость между узлами за все исследуемое время, и оценить экстремумы. Разработанная система визуализации интегрирована в вычислительную инфраструктуру ЦЕРН, установлена на отдельном сервере для решения таких аналитических задач, как визуальный поиск и оценка неоптимальных сетевых маршрутов, детектирование неработающих сетевых устройств, поиск самозацикливаний при передаче данных между узлами. 2) Разработан метод кластеризации сообщений об ошибках при выполнении задач анализа и обработки данных на примере экспериментов ATLAS и CMS Он основан на векторизации сообщений, с использованием технологии “words embeddings”, и дальнейшей кластеризации полученных векторов с помощью алгоритма DBSCAN с автоматическим подбором параметра epsilon (внутрикластерного расстояния). На базе разработанного метода реализован фреймворк ClusterLogs. Он обеспечивает автоматизированное выполнение конвейера различных этапов обработки данных: токенизация, подготовка данных (очистка), перегруппировка по эквивалентным строкам (этот подход позволяет сократить количество исследуемых паттернов в среднем на 80%), векторизация токенов, векторизация предложений, кластеризация методами машинного обучения (DBSCAN, HDBSCAN, K-Means, OPTICS, Hierarchical) или методом сравнения последовательностей, перегруппировка данных по номерам кластеров, описание кластеров - путем вычисления общих текстовых паттернов и поиском общих ключевых фраз. На вход ClusterLogs получает таблицу с данными о вычислительных задачах, завершившихся со сбоем, включая текстовое описание сообщения об ошибке. На выходе система выдает результат кластеризации в формате отчета с описанием каждого выделенного кластера, а также возвращает исходную таблицу с данными с дополнительными полями: номер кластера, общий текстовый паттерн и общие ключевые фразы, что позволяет в дальнейшем группировать исходные данные по кластерам, и проводить более детальный анализ. Учитывая нацеленность разрабатываемого фреймворка не только на оперативную аналитику текстовых паттернов, но и на ретроспективный анализ данных, который подразумевает операции с десятками миллионов строк, фреймворк был адаптирован для запуска в параллельном режиме на суперкомпьютере IBM Polus, установленном на факультете ВМК МГУ. Были распараллелены начальные этапы обработки данных (токенизация, очистка, перегруппировка), которые являются наиболее ресурсоемкими. Результаты тестов на IBM Polus показали существенное ускорение при выполнении вычислений на более чем 20 узлах. 3) Предложен метод визуальной аналитики вычислительных ресурсов эксперимента ATLAS по типам сообщений об ошибках Для помощи в интерпретации результатов кластеризации и подборе параметров кластеризации было разработано веб-приложение, обеспечивающее графический пользовательский интерфейс к системе ClusterLogs. Результаты кластеризации представляются в виде таблицы, и интерактивного графического представления векторного пространства сообщений, каждая точка на котором соответствует текстовому шаблону, представляющему некоторое количество сообщений, а их размер, цвет и координаты позволяют наглядно увидеть взаимное расположение сообщений, входящих в те или иные кластеры. Наконец, приложение включает в себя инструменты для помощи в подборе параметров: для метода кластеризации DBSCAN отрисовывается графика расстояний до ближайших соседей, который может помочь при выборе параметра epsilon (внутрикластерного расстояния). В результате исследований, проведенных с помощью разработанной системы, было показано, что оптимальным методом кластеризации для данных о вычислительных задачах системы PanDA является алгоритм DBSCAN. 4) Разработан метод визуального анализа процесса выполнения заданий и задач физического анализа Разработан прототип системы визуального анализа процесса выполнения заданий и задач физического анализа - Task Execution Visual Analysis. Система позволяет во-первых, выполнять визуальный анализ статусов всех выполненных заданий за определенный период времени. Для этого используется диаграмма размаха, показывающая в компактном виде распределение времени выполнения заданий по различным статусам. Также применяются диаграммы рассеяния для отображения изменения статусов заданий и задач во времени. Во-вторых, пользователю предоставляется возможность выбрать интересующее его задание и выполнить анализ процесса его выполнения. Для этого доступны два типа визуализации. Первый тип - диаграммы параллельных координат, показывающие ID задач, вычислительные сайты, где они выполнялись, их длительность, статусы, через которые они проходили, шкалу времени. Кроме того, на диаграмме параллельных координат для каждого вычислительного ресурса добавлены оценки общей эффективности, что позволяет узнать состояние и загруженность сайта в момент выполнения задач. Второй тип визуализации - диаграммы рассеяния, показывающие изменения статусов всех задач исследуемого задания во времени, с привязкой к вычислительным сайтам. Разработанная система позволяет понять причины медленного выполнения вычислительных заданий: длительные задержки начала выполнения определенных блоков задач; детектирование сайтов, на которых наблюдаются задержки при выполнении; определение вычислительных ресурсов, на которых произошли ошибки при выполнении задач; визуальная оценка количества перезапусков вычислительных заданий и оценка длительности каждого перезапуска и др. 5) Разработан метод интегральной оценки популярности данных эксперимента ATLAS для пользовательского анализа До сегодняшнего дня в эксперименте популярность данных оценивалась как общее количество обращений к данным за определенный период времени. Нами было показано, что данная оценка является не оптимальной, и предложен метод оценки популярности по нескольким параметрам, которые помимо количества обращений учитывают количество пользователей и их географическую распределенность. Для визуального анализа популярности данных предложено несколько методов: 1) тепловые карты, позволяющие представить не только популярность отдельных данных, но и популярность групп данных (форматы данных, названия проектов), что является более показательным. Помимо непосредственно показателей популярности, тепловая карта показывает временные показатели выполнения заданий/задач, и объемы обрабатываемых данных. 2) картографическая визуализация, позволяющая показывать на карте мира расположение вычислительных ресурсов, на которых выполняется обработка данных, а также географическое положение пользователей, которые запускали задачи физического анализа. Данный тип визуализации позволяет аналитику оперативно оценить вычислительные ресурсы, которые принимают наиболее активное участие в обработке популярных данных, а также определить страны/институты, пользователи которых более других заинтересованы в анализе определенных классов данных. 6) Выполнена модернизация архитектуры платформы визуального-анализа InVEX в сторону улучшения масштабируемости и обеспечения максимальной модульности При модернизации платформы визуализации был предложен и реализован подход к динамической генерации пользовательского интерфейса, который повышает гибкость системы и позволяет ей быть более устойчивой к частому изменения схемы хранения данных. Платформа реализована посредством обмена информацией между программным интерфейсом и пользовательским интерфейсом при помощи технологии WebSocket, которая обеспечивает взаимодействие пользователя с серверной частью в режиме реального времени и повышает гибкость работы за счёт удобных форматов пересылаемых данных. В актуальной версии платформы для визуализации используется предустановленный набор дашбордов, который хранится в формате JSON файлов. Пользовательский интерфейс платформы состоит из “Списка доступных фильтров”; “Окна выбранных фильтров”, отрисовывающихся вверху экрана сгруппированных по типу данных; “Окна выбора доступных дашбордов”; и “Окна визуализации”, где отрисовываются описанные в дашборде компоненты, например, таблицы и графики. Использование собственной платформы позволяет применять большое количество инструментов для визуализации, например, помимо стандартных таблиц, графиков и диаграмм, трёхмерные географические карты, трёхмерные ориентированные и неориентированные графы, графы в форме протекающих процессов (“sankeys”) и многое другое. 7) опубликовано 6 работ в научных журналах индексируемых в международных базах (Scopus, WoS) данных, еще 2 статьи приняты к опубликованию в 2021 г. 8) методы анализа популярности данных, разрабатываемые в рамках Проекта, были представлены на двух международных симпозиумах коллаборации ATLAS по программному обеспечению и компьютингу, кроме того работы регулярно обсуждаются на совещаниях по популярности данных коллаборация ATLAS, проводимых с периодичностью раз в две недели в течение 2020-2021 гг. 9) по тематике проекта представлены доклады на международных конференциях IVMEM'2021, GraphiCon'2021

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".