Разработка методов и инструментальных средств тотального анализа качества работы больших суперкомпьютерных комплексовНИР

The development of methods and tools for the total analysis of the work quality of large supercomputer complexes

Источник финансирования НИР

грант Президента РФ

Этапы НИР

# Сроки Название
1 16 мая 2019 г.-31 декабря 2019 г. Разработка методов и инструментальных средств тотального анализа качества работы больших суперкомпьютерных комплексов
Результаты этапа: В рамках работ на данном этапе были получены следующие результаты. Была проведена интеграция входных данных от различных источников информации о качестве работы суперкомпьютерных центров (СКЦ). В частности, были реализованы методы сбора и интеграции данных о производительности суперкомпьютерных приложений; принадлежности задач к пользователям, проектам, организациям и предметным областям; использовании прикладных пакетов, библиотек и компиляторов; импорте/экспорте данных на суперкомпьютер; работе файловой системы. На данный момент не выполнена только интеграция данных о производительности вычислительных узлов без привязки к задачам, поскольку для сбора этой информации необходима разработка нового модуля системы мониторинга DiMMon, которая разрабатывается в рамках другого проекта. Однако реализация данного модуля запланирована на февраль-март текущего года. Собираемые данные хранятся в рамках единого решения, использующего базы данных MongoDB и InfluxDB. На данном этапе была выполнена существенная часть работ по разработке модели, определяющей унифицированную структуру и форматы общего представления информации для изучения различных аспектов работы СКЦ. Для этих целей параллельно выполнялись работы по двум направлениям. Велась разработка базовых методов анализа отдельных аспектов работы СКЦ на основе существующих исследований в этой области и нашего опыта сопровождения и анализа качества работы больших СКЦ. Такой подход позволяет подойти к решению вопроса создания модели с практической точки зрения. На данном этапе эта работа была завершена, и был составлен и описан базовый набор методов, позволяющий оценивать наиболее важные аспекты работы суперкомпьютерного центра (в частности, пользовательскую активность, свойства потока задач и качество работы системного программного обеспечения). Отметим, что на следующем этапе возможно уточнение и дополнение разработанных методов с учетом новых полученных результатов. Также отдельно велась разработка первичной модели, при этом рассматривались все возможные целевые функции и влияющие на них факторы, которые могут быть важны с точки зрения анализа качества работы больших СКЦ. Такой подход является более фундаментальным и позволяет учесть все возможные особенности и аспекты с точки зрения теории. При этом первый подход позволяет взглянуть на проблему с другой стороны и поэтому полезен для уточнения второго при переходе от теории к практике. На данном этапе для двух групп – пользователей суперкомпьютера и администраторов – был определен набор целевых характеристик, которые описывают главные цели данных групп при анализе качества работы СКЦ. Для выделенных целевых характеристик были определены все возможные факторы программно-аппаратной среды суперкомпьютера, которые могут влиять на эти характеристики и потому должны быть учтены в разрабатываемой модели. Было начато определения форматов и структуры представления данных, описывающих влияние выбранных факторов на целевые характеристики. Был реализован пилотный вариант программного инструмента, предоставляющего web-интерфейс для доступа к полученным результатам. Для апробации данного решения было реализовано множество отдельных примеров графиков, позволяющих на практике оценивать различные аспекты качества работы суперкомпьютерного центра. Проведенная апробация показала, что выбранное решение применимо и показывает достаточную производительность для целей данного проекта, а собираемых данных в целом достаточно для проведения необходимого анализа.
2 1 января 2020 г.-31 декабря 2020 г. Разработка методов и инструментальных средств тотального анализа качества работы больших суперкомпьютерных комплексов
Результаты этапа: - Разработаны методы интеграции информации от основных доступных источников данных о производительности суперкомпьютерных программных и аппаратных компонент. - Разработана модель для определения качества работы суперкомпьютерных систем. Данная модель определяет унифицированную структуру и форматы общего представления информации для изучения указанных аспектов работы суперкомпьютера. Модель реализована для трех групп людей - пользователя, администратора и руководства суперкомпьютерного центра. - Реализован программный инструмент, позволяющий выполнять разносторонний анализ на основе разработанных ранее методов и подходов. Для доступа к данному инструменту реализован отдельный web-интерфейс. - Проведена масштабная апробация предложенного решения на больших суперкомпьютерных комплексах петафлопсного уровня производительности. Проведенная апробация показала применимость полученного решения на практике.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".