ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ИНХС РАН |
||
В рамках совместного проекта, выполняемого научными группами НИВЦ МГУ (Россия) и C-DAC (Индия) планируется разработка подходов и реализация систем мониторинга следующего поколения для суперкомпьютерных комплексов любого уровня производительности. Принципиально новое качество – это возможность динамической реконфигурации систем мониторинга производительности суперкомпьютеров, в частности, с целью изменения набора данных и частоты опроса датчиков в зависимости от текущих параметров программно-аппаратного окружения. Системы мониторинга производительности сегодня являются неотъемлемой частью высокопроизводительных компьютеров. Они должны анализировать как отдельные приложения, выполняющиеся на суперкомпьютерах, так и производить анализ полного потока задач даже для сверхбольших вычислительных систем. Существующие системы мониторинга производительности для реконфигурации требуют перезапуска всей системы или отдельных ее компонентов, и не рассчитаны на изменение набора данных и частоты их опроса в процессе работы. Между тем возможности по динамической реконфигурации позволят гибко подстраивать системы мониторинга под нужды пользователей, изменяя детальность анализа и уровень помех, вносимых системой мониторинга, для отдельных вычислительных задач и фрагментов задач. Такая гибкость позволит принципиально поднять масштабируемость систем мониторинга производительности суперкомпьютеров с прицелом на перспективные сверхбольшие вычислительные системы.
Within the framework of a joint project carried out by scientific groups of the Research Computing Center of Lomonosov Moscow State University (Russia) and C-DAC (India), it is planned to develop approaches and implement next-generation monitoring systems for supercomputers of any level of performance. A proposed fundamentally new quality is the ability to dynamically reconfigure the systems for monitoring the performance of supercomputers, in particular, aiming to changing the target data set and the sensor polling frequency relying on the current parameters of hardware and software environment. Performance monitoring systems are now an integral part of high-performance computers. They should analyze both individual applications running on supercomputers and also analyze the full flow of tasks, even for extremely large computing systems. Existing performance monitoring systems require a restart of the entire system or its individual components for reconfiguration. They are not designed to switch to a new data set and change the sensor polling frequency during operation. At the same time, the dynamic reconfiguration capabilities will allow flexible adjustment of monitoring systems to the needs of users, changing the analysis detail and the level of overheads introduced by the monitoring system for particular tasks or task’s fragments. This flexibility will fundamentally increase the scalability of performance monitoring systems for supercomputers with an eye on perspective ultra-large and highly parallel computing systems.
Будет разработана и экспериментально обоснована реализуемость концепции динамической реконфигурации систем мониторинга для суперкомпьютеров пост-петафлопсного уровня производительности. Будут разработаны подходы к построению систем мониторинга производительности суперкомпьютеров, которые могут в процессе работы менять набор собираемых данных и частоты съема этих данных. Будет разработаны подходы к сохранению, обработке и визуализации данных, набор и частота получения которых может менять в процессе работы. Разработанные подходы будут апробированы для создания реальной системы мониторинга, работающей на нескольких системах, в частности, на суперкомпьютере петафлопсного уровня «Ломоносов-2» и на системах, имеющихся у индийских участников проекта. Полученные результаты позволят создавать гибкие системы мониторинга производительности суперкомпьютеров, возможность по динамической настройке которых принципиально превосходят существующие системы. Такие динамически настраиваемые системы принципиально важны для сверхбольших систем, так как из способности по динамической настройке позволят гибко адаптироваться под работу таких вычислительных систем.
грант РФФИ |
# | Сроки | Название |
1 | 25 октября 2019 г.-15 сентября 2020 г. | Теория и практика использования тонкого системного мониторинга для повышения качества суперкомпьютерных приложений |
Результаты этапа: Разработана и экспериментально обоснована реализуемость концепции динамической реконфигурации систем мониторинга для суперкомпьютеров пост-петафлопсного уровня производительности. Разработаны подходы к реализации динамического изменения набора собираемых данных и периода опроса датчиков. На основе разработанных подходов возможность динамического изменения набора собираемых данных и периода опроса датчиков реализована в системе мониторинга DiMMon. Реализовано сопряжения системы DiMMon и менеджера ресурсов SLURM для передачи запросов на изменение конфигурации в систему мониторинга. Определены возможные варианты динамического изменения конфигурации системы мониторинга для исследования параллельных программ, и реализована возможность динамической конфигурации системы мониторинга в соответствии с определенными вариантами. | ||
2 | 1 февраля 2021 г.-15 сентября 2021 г. | Теория и практика использования тонкого системного мониторинга для повышения качества суперкомпьютерных приложений |
Результаты этапа: В рамках работ по проекту была разработана концепция и сформулированы требования к реконфигурируемой системе мониторинга. Выделены конфигурации агента мониторинга на вычислительном узле: нормальная конфигурация; отключение опроса аппаратных счетчиков процессора; полное отключение мониторинга на вычислительном узле; увеличенная частота опроса датчиков. В системе DiMMon была реализована возможность реконфигурации системы в соответствии с указанными конфигурациями. Пользователям суперкомпьютера была предоставлена возможность указывать желаемую конфигурацию систем мониторинга на время выполнения их задач. Для этого было реализовано сопряжение менеджера ресурсов SLURM с системой DiMMon. Было реализовано сохранение данных в базе данных для хранения временных рядов InfluxDB. Были реализованы средства визуализации на основе системы Grafana. Визуализация данных может производиться в разрезе задач и вычислительных узлов с возможностью перехода между режимами. При реализации были учтены переданные индийской стороной проекта сведения об их вычислительных системах для возможности развертывания полученных решений на системах партнера. Все реализованные возможности были развернуты для суперкомпьютера «Ломоносов-2». Была проведена оценка получаемого потока данных и оценена масштабируемость полученного решения. |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".