ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ИНХС РАН |
||
Суперкомпьютерные комплексы и цифровая экономика тесно связаны между собой, что объясняется целым набором причин. Здесь и ключевое понятие “цифровой модели” объекта, явления, процесса, лежащее в основе моделирования и суперкомпьютерных расчетов. Здесь и исключительно важная роль собственно суперкомпьютерных технологий, обеспечивающих конкурентоспособность как отдельных предприятий и отраслей, так и экономики государства в целом. Нельзя не отметить и такие два свойства суперкомпьютерных технологий как междисциплинарность и универсальность. Посчитать (смоделировать, спрогнозировать, предсказать) сегодня можно практически всё, что и определяет широкое распространение суперкомпьютерных технологий в науке, промышленности, экономике, а также их значение для цифровой экономики будущего. Потенциал суперкомпьютеров огромен, но их реальное использование сопряжено с множеством нетривиальных проблем. Основных причин этому три: сложность и неоднородность архитектуры современных суперкомпьютерных комплексов, огромное число компонент суперкомпьютерных центров и большое разнообразие приложений. Сложность и неоднородность архитектуры суперкомпьютеров приводят к падению эффективности, огромное число компонент вызывает резкое снижение управляемости суперкомпьютерных комплексов, а разнообразие приложений определяет быстрый рост числа пользователей суперкомпьютеров. Как итог, теряется контроль качества отдельных проектов, нет контроля качества работы суперкомпьютерных комплексов в целом, что приводит к снижению потенциальной отдачи суперкомпьютерных систем в десятки и сотни раз. В рамках данного проекта будет разработан комплекс моделей, методов и программных средств, составляющих сквозную цифровую платформу обеспечения качества проектов, выполняющихся с использованием суперкомпьютерных систем любого масштаба, от уровня отдельных научных групп, до больших национальных суперкомпьютерных центров. Для анализа суперкомпьютерных проектов, приложений, систем и центров в целом будет введена система количественных оценок, позволяющая перевести контроль качества на строгую цифровую основу. Разработанные методы и средства будут апробированы в максимально сложных условиях, а именно в рамках суперкомпьютерного комплекса Московского университета, являющегося в настоящее время самым крупным и масштабным суперкомпьютерным центром России.
Supercomputer complexes and digital economy are closely related, which is explained by the whole set of reasons. It includes the key concept of a “digital model” of an object, event, process, that underlies the modeling and HPC calculations. It also includes exceptionally important role of supercomputer technologies themselves, ensuring the competitiveness of particular companies and industries, as well as the economy of the state as a whole. Two more features of supercomputer technologies that should also be mentioned are interdisciplinarity and universality. Today one can calculate or compute (simulate, forecast, predict) practically everything, and that determines the wide distribution of supercomputer technologies in science, industry, economy, as well as their importance for the digital economy of the future. The potential of supercomputers is huge, but their real-life usage is connected with a lot of non-trivial problems. There are three main reasons for this: complexity and heterogeneity of the architecture of modern supercomputer systems, huge number of components of supercomputer centers and wide variety of applications. Complexity and heterogeneity of the supercomputer architecture lower usage efficiency; huge number of components causes a sharp decrease of the supercomputer management efficiency; variety of applications determines the rapid growth of the number of HPC users. As a result, quality control of individual projects is lost, there is no quality control of supercomputer systems in general, which leads to the decrease of the potential return of supercomputer systems in tens and hundreds of times. Within the framework of this project, a complex of models, methods and software tools will be developed, which constitute an end-to-end digital platform for ensuring the quality of projects implemented using supercomputer systems of any scale, from the level of small scientific groups to large national supercomputer centers. For the analysis of supercomputer projects, applications, systems and centers, a quantitative assessment system will be introduced, which allows to transfer quality control to a strict digital basis. The developed methods and solutions will be tested in the most difficult conditions, namely within the supercomputer complex of Lomonosov Moscow state university, which is currently the largest supercomputer center in Russia.
Основной результат научного исследования полностью отвечает сформулированной ранее цели и состоит в разработке комплекса моделей, методов и программных средств, составляющих сквозную цифровую платформу обеспечения качества суперкомпьютерных проектов, приложений, систем и суперкомпьютерных центров. Инновационный потенциал данного результата велик: всем целевым группам, связанным с суперкомпьютерными центрами, будет предоставлена не только возможность оценки, но и будут даны средства повышения качества использования суперкомпьютерных систем. С учетом исключительно высокого инновационного потенциала суперкомпьютерных технологий для науки и индустрии, данный результат заведомо будет иметь большое значение для развития цифровой экономики страны.
грант РФФИ |
# | Сроки | Название |
1 | 7 июля 2018 г.-2 июля 2019 г. | Разработка фундаментальных основ для сквозной цифровой платформы обеспечения качества суперкомпьютерных проектов и эффективности суперкомпьютерных систем |
Результаты этапа: Полученные в рамках первого года работ результаты сформировали необходимый фундамент для успешного выполнения работ по проекту по всем его направлениям. В рамках модели суперкомпьютерного центра рассмотрены основных составляющие и структура процессов суперкомпьютерного комплекса. Выделены основные объекты и отношения, определены возможные состояния и переходы. Рассмотрены частные случаи структуры процессов для СКЦ различного масштаба и проведен анализ соответствующих моделей. Выполнен анализ рекордных систем списка Top500 самых мощных суперкомпьютеров мира, на основании которого выделены основные источники сложности и неоднородности в их архитектуре. По полученным результатам осуществлено уточнение методов, позволяющих учесть и эффективно интегрировать источники сложности и неоднородности в модель описания суперкомпьютерных систем. Разработан подход к формированию оценок качества работы приложений, запускаемых на суперкомпьютере, основанный на анализе динамических характеристик, описывающих для каждого приложения разные аспекты производительности его выполнения. Разработан подход для формирования оценок качества использования ПО, используемого на суперкомпьютере, прежде всего, прикладных пакетов, установленных на суперкомпьютере и используемых для решения различных прикладных задач из разных предметных областей. Например, LAMMPS, VASP, Magma и т.д. Проведен ряд экспериментов на реальных данных суперкомпьютера Ломоносов-2, направленных на анализ описанных оценок качества работы приложений и ПО. Проанализированы результаты, которые на практике были получены для разных динамических характеристик по отдельным приложениям, а также была исследована различная статистика по использованию прикладных пакетов. Выполнена разработка и реализация базовых методов интеграции данных системного мониторинга приложений, запускаемых на суперкомпьютере. Определены целесообразные механизмы обеспечения самодиагностики и отказоустойчивости для поддержки создаваемого программного комплекса цифровой платформы. Проведение начального экспериментального исследования создаваемого программного комплекса в условиях системы Ломоносов-2 СКЦ МГУ. Начальный опыт эксплуатации показал высокую эффективность разработанного комплекса по сравнению с ранее использовавшимися подходами. Метод синхронизации данных через ssh с ограниченными правами показал широкие возможности при высокой степени безопасности. План на 2-й год реализации проекта в целом сохранил свою структуру и цели. Представление результатов: Всеройссийская конференция молодых ученых Ural-PDC 2018, г. Екатеринбург - доклад "Computing Cost and Accounting Challenges for Octoshell Management System" Международная конференция Параллельные вычислительные технологии (ПаВТ-2019), г.Калининград - доклад "Universal entity description method for the Octoshell HPC center management system" - доклад "Evolution of the Octoshell HPC Center Management System" - доклад "The Top50 Performance Ranking Statistical Data Processing and Visualization Methods" Публикации: Белкина, Юлия, Николаевна, Никитенко, Дмитрий, Александрович. Computing Cost and Accounting Challenges for Octoshell Management System. CEUR Workshop Proceedings, 2018, 2281, 146-158 Паокин, Андрей, Викторович, Никитенко, Дмитрий, Александрович, Жуматий, Сергей Анатольевич. Universal Entity Description Method for the Octoshell HPC Center Management System. 2019 Капридов, Антон, Андреевич, Никитенко, Дмитрий, Александрович. THE TOP50 PERFORMANCE RANKING STATISTICAL DATA PROCESSING AND VISUALIZATION METHODS. 2019 Леоненков, Сергей, Николаевич. Целевая оптимизация структуры потока задач суперкомпьютеров. Вычислительные методы и программирование: новые вычислительные технологии, 2019 | ||
2 | 3 июля 2019 г.-30 августа 2020 г. | Разработка фундаментальных основ для сквозной цифровой платформы обеспечения качества суперкомпьютерных проектов и эффективности суперкомпьютерных систем |
Результаты этапа: Исследована полнота предложенной модели суперкомпьютерного центра относительно базового набора составляющих: организации, проекты, пользователи, приложения, динамические характеристики работы отдельных приложений, параметры инфраструктуры программного обеспечения, компоненты и составные части аппаратной части суперкомпьютера. Выполнены необходимые корректировки модели для обеспечения полноты и решения задач проекта. Разработанные методы работы с моделью позволяют весь анализ выполнять на компьютерных ресурсах серверного масштаба. Исследована масштабируемости предложенных методов относительно размеров модели. Выполнен анализ основных технологических тенденций, закладываемых в экзафлопсные системы будущего, для дополнения набора основных источников сложности и неоднородности в архитектуре суперкомпьютеров. Разработаны методы интеграции найденных источников с моделью СКЦ. Разработан подход для формирования количественных оценок качества работы суперкомпьютерных приложений, опирающийся на данные о работе подсистемы памяти на вычислительном узле и на данные о работе сети межузловых коммуникаций. Проведены экспериментальные исследования для определения и комплексного анализа значений оценок качества, выделенных на первом и втором году выполнения проекта, в реальных условиях работы суперкомпьютерного комплекса по всей цепочке: организации, проекты, пользователи, приложения. Проведен анализ сформированной системы количественных оценок на предмет полноты описания всех основных сторон деятельности и объектов суперкомпьютерных центров; выделены недостающие компоненты, которые составят предмет исследования на следующем этапе. Разработаны методы интеграции данных об организациях, проектах и пользователях в программный комплекс, создаваемый в рамках проекта; проведение тестовых испытаний, показывающих работоспособность и эффективность предложенных методов оценки качества звеньев цепочки: организация – проекты – пользователи, в условиях реального большого суперкомпьютера. Разработаны механизмы обеспечения самодиагностики и отказоустойчивости программного комплекса; проведено исследование их надежности, эффективности, достаточности; Проведен запуск разработанной версии программного комплекса в тестовую эксплуатацию. Проведено экспериментальное исследование параметров работы комплекса, корректировка базовых компонентов и алгоритмов. Проведено исследование эффективности использованных подходов для обеспечения модульности, расширяемости, масштабируемости, многоязычности, функциональной полноты программного комплекса. Публикации (6 статей): Nikitenko D. A. Driving a Petascale HPC Center with Octoshell Management System 2019 Статья в журнале опубликовано Vladimir V. Voevodin, Alexander S. Antonov, Dmitry A. Nikitenko, Pavel A. Shvets, Sergey I. Sobolev, Igor Yu. Sidorov, Konstantin S. Stefanov, Vadim V. Voevodin, Sergey A. Zhumatiy Supercomputer Lomonosov-2: Large Scale, Paokin Andrei Method for Intermodular Interaction in the Octoshell HPC Center Management System 2020 Статья в сборнике опубликовано Nikitenko Dmitry Evolution of the Octoshell HPC Center Management System 2019 Статья в сборнике опубликовано Valkov Pavel Using Empirical Data for Scalability Analysis of Parallel Applications 2019 Статья в сборнике опубликовано Afanasyev Ilya V. Developing an Efficient Vector-Friendly Implementation of the Breadth-First Search Algorithm for NEC SX-Aurora TSUBASA 2020 Статья в сборнике опубликовано Представление результатов на конференциях: Международная суперкомпьютерная конференция "Суперкомпьютерные дни в России 2019", Москва Научная конференция "Ломоносовские чтения 2020", Москва Международная конференция "Параллельные вычислительные технологии 2020", Пермь (дистанционный формат в условиях пандемии) | ||
3 | 1 декабря 2020 г.-12 ноября 2021 г. | Разработка фундаментальных основ для сквозной цифровой платформы обеспечения качества суперкомпьютерных проектов и эффективности суперкомпьютерных систем |
Результаты этапа: Главным результом проекта является комплекс моделей, методов и их программная реализация в виде программного комплекса поддержки функционирования суперкомпьютерного центра. Полученные результаты апробированы на крупнейшем междисциплинарном СКЦ Московского университета и используются в его каждодневной практике в режиме 24/7. В рамках работ над созданием формальной модели и методов ее обработки были проведены следующие работы и получены следующие результаты, что отражено в публикациях по проекту. Таким образом, в ходе выполнения проекта, предложена, описана и исследована единая модель суперкомпьютерного центра, объединяющая все его основные составляющие и их взаимосвязи. Модель в такой полноте рассматривается впервые, аналогов у системы, реализующей подобную модель в мире не появилось и на момент завершения проекта. Несмотря на огромное число элементов, составляющих модель, вся работа с ней выполняется на компьютерных ресурсах серверного масштаба. В рамках проекта было проведено исследование и разработаны методы анализа сложности и неоднородности суперкомпьютерных систем. Показано, что степень сложности и неоднородности современных вычислительных систем, а особенно будущих суперкомпьютерных систем экзафлопсного уровня производительности, исключительно велика, однако разработанные и используемые в рамках проекта методы дают основы для подходов для эффективной обработки и анализа систем любой сложности. В контексте формирования системы и методов оценки качества получены следующие результаты по направлению развития системы оценки качества: Сформирована результирующая система количественных оценок, лежащая в основе сквозной цифровой платформы обеспечения качества суперкомпьютерных проектов, приложений, систем и суперкомпьютерных центров в целом. Проведено комплексное исследование эффективности методов интеграции всех необходимых данных в формируемый программный комплекс цифровой платформы. Проведены комплексные экспериментальные исследований сформированной системы оценки качества и продемонстрирована эффективности предложенной системы оценки качества для всех звеньев цепочки: организации, проекты, пользователи, приложения. Относительно особенностей эксплуатации программной реализации разработанных методов в рамках проекта получены следующие ключевые результаты: Проведена разработка, реализация и апробация механизмов обеспечения самодиагностики и отказоустойчивости программного комплекса, теоретическое и практическое исследование их надежности, эффективности и достаточности. Программный комплекс цифровой платформы запущен в опытную эксплуатацию в круглосуточном режиме на ресурсах суперкомпьютерного комплекса МГУ, проведено экспериментальное исследование параметров работы комплекса и анализ качества самодиагностики и отказоустойчивости, подтвердившие работоспособность выбранных решений. Проведен подбор, корректировка и тонкая настройка параметров компонент комплекса. Разработан дистрибутив и средства распространения сквозной цифровой платформы обеспечения качества суперкомпьютерных проектов, приложений, систем и суперкомпьютерных центров, в качестве средства распространения выбран общедоступный сервис GitHub. |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".