Разработка программных средств поддержки жизненного цикла и обеспечения эффективности суперкомпьютерных приложений, систем и центровНИР

Software development for supporting supercomputing applications, systems and centers live cycle and efficiency issues

Источник финансирования НИР

госбюджет, раздел 0110 (для тем по госзаданию)

Этапы НИР

# Сроки Название
1 1 января 2021 г.-31 декабря 2021 г. Анализ текущего состояния предметной области по каждому из обозначенных направлений.
Результаты этапа: В ходе выполнения этапа проведен анализ важных аспектов работы суперкомпьютерного центра, связанных с эффективностью его функционирования; была выполнена разработка модульного программного комплекса поддержки суперкомпьютерного центра; осуществлено развитие подходов к построению систем мониторинга для суперкомпьютеров, разработка и развитие методов сохранения данных о состоянии суперкомпьютера и построения «срезов» на любой заданный момент времени; развитие Открытой энциклопедия свойств алгоритмов, направленное на на замыкание цепочки от особенностей решения конкретных вычислительных задач до их эффективной реализации на вычислительных системах.
2 1 января 2022 г.-31 декабря 2022 г. Реализация программного обеспечения по каждому из обозначенных направлений.
Результаты этапа: Были разработаны и реализованы новые методы для анализа и сравнения эффективности использования суперкомпьютерных ресурсов. В рамках работ по разработке модульного программного комплекса поддержки суперкомпьютерного центра произведено расширение функциональности комплекса, тестирование и апробирование реализованного функционала в условиях реальной эксплуатации. Для системы мониторинга было реализовано определение возможностей экспорта-импорта конфигурации подсистемы визуализации, расширение набора собираемых датчиков процессора, исследование подходов к использованию методов CI. Была существенно расширена функциональность анализатора некорректно завершившихся заданий; были проанализированы данные о сбойных задачаниях на суперкомпьютере "Ломоносов-2" за 2022 год; был создан ежедневный дайджест с информацией о сбойных узлах суперкомпьютера; было разработано средство отображения состояния суперкомпьютера на трехмерной визуальной модели. В рамках Открытой энциклопедии свойств алгоритмов AlgoWiki был выполнен ряд работ, позволивших продлить логические цепочки от описаний вычислительных задач до описаний конкретных высокопроизводительных вычислительных систем.
3 1 января 2023 г.-31 декабря 2023 г. Тестовая эксплуатация разработанного программного обеспечения на суперкомпьютерах с традиционной кластерной архитектурой, установленных в МГУ.
Результаты этапа: В рамках направления работ по проведению детального анализа всех важных аспектов работы суперкомпьютерного центра, связанных с эффективностью его функционирования, были разработаны и апробированы методы для предсказания оценок для анализа и сравнения запускаемых на суперкомпьютере заданий с точки зрения эффективности использования ими суперкомпьютерных ресурсов. Данные методы реализованы на суперкомпьютере "Ломоносов-2" МГУ, однако могут быть перенесены и на другие вычислительные системы. Были реализованы способы отображения результатов по полученным оценкам, как для системных администраторов, так и для пользователей. Кроме того, был разработан способ постоянного мониторинга шума (влияния программно-аппаратной среды, изменяющего поведение пользовательских приложений) на суперкомпьютере. Работы над развитием модульного программного комплекса поддержки суперкомпьютерного центра Octoshell заключались в разработке подсистемы контроля корректности данных, доработке механизмов работы с пользовательскими проектами в рамках перерегистрации и реализации версионности для описаний пользовательских проектов. В частности, были проведены работы по очистке имеющихся данных в системе и созданию системы подсказок для администраторов и экспертов о существующих дублирующихся объектах. Было реализовано выделение нестандартных категорий проектов. Для системы мониторинга суперкомпьютеров DiMMon были продолжены работы по реализации методов Continuous Integration (CI) в процессе разработки. Были выработаны подходы к построению модульных тестов (unit tests), был реализован набор таких тестов. Была выполнена интеграция сборочных зависимостей в дерево исходных кодов системы DiMMon. В рамках направления по созданию методов и средств работы со "срезами" состояния суперкомпьютера основные работы были сосредоточены на создании методов и средств визуализации рабочих характеристик суперкомпьютера. Была создана трехмерная фотореалистичная модель суперкомпьютера "Ломоносов-2", а также программная среда, отображающая данную модель в веб-браузере. С помощью данной среды был разработан сервис для системных администраторов, отображающий на визуальной модели рабочие характеристики компонентов суперкомпьютера, такие как статус вычислительных узлов, температуру центральных процессоров, число записей о сбоях в системных журналах узлов и т.д. В ходе работ по развитию Открытой энциклопедия свойств алгоритмов была произведена интеграция Открытой энциклопедии AlgoWiki и цифровой платформы Algo500. Это объединение позволяет заложить основу построения мощной аналитической системы, реализующей базовые принципы суперкомпьютерного кодизайна с возможностями совместного анализа свойств задач, методов, алгоритмов, программных реализаций, архитектур компьютеров и данных о динамике выполнения программ на реальных программно-аппаратных платформах. В ходе выполнения исследования возможности создания защищенной инфраструктуры для проведения удалёнными пользователями открытых экспериментальных исследований в области информационной безопасности было выполнено глубокое совместное изучение алгоритмических особенностей выделенных классов задач из области цифровой криптографии и технологических особенностей современных и перспективных вычислительных архитектур, которые были бы максимально пригодны для эффективной программной реализации обозначенных групп задач и алгоритмов.
4 1 января 2024 г.-31 декабря 2024 г. Тестовая эксплуатация разработанного программного обеспечения на вычислительных установках с нетрадиционными архитектурами, установленных в МГУ.
Результаты этапа:
5 1 января 2025 г.-31 декабря 2025 г. Введение разработанного программного обеспечения в полноценную эксплуатацию. Подведение итогов проекта.
Результаты этапа:

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".

Прикрепленные файлы


Имя Описание Имя файла Размер Добавлен
1. Отчет 408_project_report_gost_2023...pdf 2,2 МБ 28 декабря 2023 [voevodin@parallel.ru]