ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ИНХС РАН |
||
1. Проведение детального анализа всех важных аспектов работы суперкомпьютерного центра, связанных с эффективностью его функционирования. 2. Разработка модульного программного комплекса поддержки суперкомпьютерного центра. Комплекс должен позволить администратору любого суперкомпьютерного центра упорядочить и упростить работу с комплексом, а пользователю - получение доступа к ресурсам и технической поддержки. 3. Развитие подходов к построению систем мониторинга для суперкомпьютеров. Конкретными целями является построение надежной, масштабируемой и расширяемой системы мониторинга. 4. Разработка и развитие методов сохранения данных о состоянии суперкомпьютера и построения «срезов» на любой заданный момент времени. 5. Развитие Открытой энциклопедия свойств алгоритмов, направленное на на замыкание цепочки от особенностей решения конкретных вычислительных задач до их эффективной реализации на вычислительных системах.
The project is aimed to software development for supporting supercomputing applications, systems and centers live cycle and efficiency issues. It unites five main research directions: - delivering the best performance quality of large HPC centers basing on the monitoring data analysis; - full support for users and administrators of collective usage HPC centers; - monitoring of every supercomputer point necessary for the efficiency control; - saving and restoring of supercomputer states for any time point given; - generalizing of description forms for the Open algorithmic encyclopedia.
Исследования В соответствии с перечнем решаемых задач планируется выполнить следующие исследования: 1. Планируется разработать новые методы для проведения тонкого анализа и сравнения производительности отдельных суперкомпьютерных приложений, в частности, изучения эффективности использования стандартных прикладных пакетов и задач с различными характерными свойствами поведения во время выполнения. Также планируется разработать методы для оценки интенсивности использования вычислительных ресурсов различными пользователями, проектами и организациями, что позволит быстро определять узкие места в качестве их работы. Помимо этого, планируется разработать подходы к проведению полного анализа качества работы суперкомпьютера в целом, что позволит администраторам и руководству таких систем получать информацию обо всех наиболее важных и существенных случаях снижения эффективности функционирования суперкомпьютеров. 2. Для решения задач системы управления суперкомпьютерным центром необходимо актуализировать и уточнять модели функционирования современных суперкомпьютерных центров и разрабатывать соответствующие им модели управления в рамках создаваемой системы. 3. Предполагаются исследования по разным аспектам построения систем мониторинга. Эти аспекты включают в себя исследования по тестированию корректности функционирования систем мониторинга как с точки зрения корректности получаемой информации, так и с точки зрения всей цепочки обработки и передачи информации в процессе функционирования системы мониторинга. Другим планируемым аспектом исследования являются способы хранения и визуализации информации, получаемой системой мониторинга суперкомпьютера. 4. Определение оптимального состава данных, требуемых для сохранения среза состояния суперкомпьютера, а также методов их сохранения, воспроизведения и анализа. Исследование методов прогнозирования состояния компонентов суперкомпьютера на основе ретроспективных данных. 5. Предполагается исследовать способы описания различных сущностей Открытой энциклопедии свойств алгоритмов. На основе полученных описаний предполагается выстраивать взаимодействие сущностей между собой. 2.2. Разработки В соответствии с намеченными направлениями исследований должны быть выполнены следующие разработки: 1. Планируется реализовать программные средства, которые позволят быстро и удобно получать доступ ко всем результатам, полученным на основе разработанных методов анализа эффективности работы отдельных приложений и суперкомпьютеров в целом, а также оповещать о наиболее критичных обнаруженных случаях снижения эффективности. 2. Поскольку комплекс управления суперкомпьютерным центром разрабатывается переносимым и должен поддерживать самые различные сценарии использования, то требуется реализовать гибкие настраиваемые программные модули для соответствующих моделей. 3. Планируется разработать средства для тестирования корректности работы системы мониторинга. Другим аспектом разработки станут средства сохранения получаемых системой мониторинга данных и их визуализации. 4. Требуется реализовать методы и средства сохранения, восстановления и анализа ретроспективных данных о состоянии суперкомпьютера. 5. Предполагается разработать механизмы, позволяющие проводить анализ способов решения вычислительных задач. На этапе анализа будут использоваться данные со всех этапов технологической цепочки, от решаемой задачи до целевой вычислительной системы. 2.3. Приложения результатов (внедрения) Полученные результаты планируется применить на практике в Суперкомпьютерном центре МГУ имени М.В. Ломоносова. Программные средства будут разрабатываться с учетом требования по их переносимости, что позволит в будущем использовать их в большинстве современных суперкомпьютерных комплексов. Для части создаваемых программных комплексов будут открыты программные коды, что позволит воспользоваться ими заинтересованнми администраторами суперкомпьютерных систем. Результаты, полученные при развитии Открытой энциклопедии свойств алгоритмов, могут быть использованы для эффективной реализации множества параллельных алгоритмов на различных вычислительных системах. Формируемая база данных по алгоритмам и их реализациям может быть полезна при решении самых разных вычислительных задач.
В рамках НИР госбюджетной темы «Создание комплекса инструментальных средств для автоматизации процессов разработки и оптимизации параллельных программ», выполнявшейся в 2016-2020 гг., по ряду направлений были проведены исследованы и разработаны программные средства, составляющие задел для данного проекта: • разработка и развитие открытой энциклопедии свойств алгоритмов; • разработка и развитие модульной системы мониторинга суперкомпьютеров; • разработка и развитие методов анализа потока приложений, выполняющихся на суперкомпьютере; • разработка и развитие методов автономного функционирования и активной самодиагностики суперкомпьютерных систем; • разработка и развитие системы поддержки функционирования суперкомпьютерного центра.
госбюджет, раздел 0110 (для тем по госзаданию) |
# | Сроки | Название |
1 | 1 января 2021 г.-31 декабря 2021 г. | Анализ текущего состояния предметной области по каждому из обозначенных направлений. |
Результаты этапа: В ходе выполнения этапа проведен анализ важных аспектов работы суперкомпьютерного центра, связанных с эффективностью его функционирования; была выполнена разработка модульного программного комплекса поддержки суперкомпьютерного центра; осуществлено развитие подходов к построению систем мониторинга для суперкомпьютеров, разработка и развитие методов сохранения данных о состоянии суперкомпьютера и построения «срезов» на любой заданный момент времени; развитие Открытой энциклопедия свойств алгоритмов, направленное на на замыкание цепочки от особенностей решения конкретных вычислительных задач до их эффективной реализации на вычислительных системах. | ||
2 | 1 января 2022 г.-31 декабря 2022 г. | Реализация программного обеспечения по каждому из обозначенных направлений. |
Результаты этапа: Были разработаны и реализованы новые методы для анализа и сравнения эффективности использования суперкомпьютерных ресурсов. В рамках работ по разработке модульного программного комплекса поддержки суперкомпьютерного центра произведено расширение функциональности комплекса, тестирование и апробирование реализованного функционала в условиях реальной эксплуатации. Для системы мониторинга было реализовано определение возможностей экспорта-импорта конфигурации подсистемы визуализации, расширение набора собираемых датчиков процессора, исследование подходов к использованию методов CI. Была существенно расширена функциональность анализатора некорректно завершившихся заданий; были проанализированы данные о сбойных задачаниях на суперкомпьютере "Ломоносов-2" за 2022 год; был создан ежедневный дайджест с информацией о сбойных узлах суперкомпьютера; было разработано средство отображения состояния суперкомпьютера на трехмерной визуальной модели. В рамках Открытой энциклопедии свойств алгоритмов AlgoWiki был выполнен ряд работ, позволивших продлить логические цепочки от описаний вычислительных задач до описаний конкретных высокопроизводительных вычислительных систем. | ||
3 | 1 января 2023 г.-31 декабря 2023 г. | Тестовая эксплуатация разработанного программного обеспечения на суперкомпьютерах с традиционной кластерной архитектурой, установленных в МГУ. |
Результаты этапа: В рамках направления работ по проведению детального анализа всех важных аспектов работы суперкомпьютерного центра, связанных с эффективностью его функционирования, были разработаны и апробированы методы для предсказания оценок для анализа и сравнения запускаемых на суперкомпьютере заданий с точки зрения эффективности использования ими суперкомпьютерных ресурсов. Данные методы реализованы на суперкомпьютере "Ломоносов-2" МГУ, однако могут быть перенесены и на другие вычислительные системы. Были реализованы способы отображения результатов по полученным оценкам, как для системных администраторов, так и для пользователей. Кроме того, был разработан способ постоянного мониторинга шума (влияния программно-аппаратной среды, изменяющего поведение пользовательских приложений) на суперкомпьютере. Работы над развитием модульного программного комплекса поддержки суперкомпьютерного центра Octoshell заключались в разработке подсистемы контроля корректности данных, доработке механизмов работы с пользовательскими проектами в рамках перерегистрации и реализации версионности для описаний пользовательских проектов. В частности, были проведены работы по очистке имеющихся данных в системе и созданию системы подсказок для администраторов и экспертов о существующих дублирующихся объектах. Было реализовано выделение нестандартных категорий проектов. Для системы мониторинга суперкомпьютеров DiMMon были продолжены работы по реализации методов Continuous Integration (CI) в процессе разработки. Были выработаны подходы к построению модульных тестов (unit tests), был реализован набор таких тестов. Была выполнена интеграция сборочных зависимостей в дерево исходных кодов системы DiMMon. В рамках направления по созданию методов и средств работы со "срезами" состояния суперкомпьютера основные работы были сосредоточены на создании методов и средств визуализации рабочих характеристик суперкомпьютера. Была создана трехмерная фотореалистичная модель суперкомпьютера "Ломоносов-2", а также программная среда, отображающая данную модель в веб-браузере. С помощью данной среды был разработан сервис для системных администраторов, отображающий на визуальной модели рабочие характеристики компонентов суперкомпьютера, такие как статус вычислительных узлов, температуру центральных процессоров, число записей о сбоях в системных журналах узлов и т.д. В ходе работ по развитию Открытой энциклопедия свойств алгоритмов была произведена интеграция Открытой энциклопедии AlgoWiki и цифровой платформы Algo500. Это объединение позволяет заложить основу построения мощной аналитической системы, реализующей базовые принципы суперкомпьютерного кодизайна с возможностями совместного анализа свойств задач, методов, алгоритмов, программных реализаций, архитектур компьютеров и данных о динамике выполнения программ на реальных программно-аппаратных платформах. В ходе выполнения исследования возможности создания защищенной инфраструктуры для проведения удалёнными пользователями открытых экспериментальных исследований в области информационной безопасности было выполнено глубокое совместное изучение алгоритмических особенностей выделенных классов задач из области цифровой криптографии и технологических особенностей современных и перспективных вычислительных архитектур, которые были бы максимально пригодны для эффективной программной реализации обозначенных групп задач и алгоритмов. | ||
4 | 1 января 2024 г.-31 декабря 2024 г. | Тестовая эксплуатация разработанного программного обеспечения на вычислительных установках с нетрадиционными архитектурами, установленных в МГУ. |
Результаты этапа: | ||
5 | 1 января 2025 г.-31 декабря 2025 г. | Введение разработанного программного обеспечения в полноценную эксплуатацию. Подведение итогов проекта. |
Результаты этапа: |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".
№ | Имя | Описание | Имя файла | Размер | Добавлен |
---|---|---|---|---|---|
1. | Отчет | 408_project_report_gost_2023...pdf | 2,2 МБ | 28 декабря 2023 [voevodin@parallel.ru] |