Создание комплекса инструментальных средств для автоматизации процессов разработки и оптимизации параллельных программНИР

Creation of a toolkit to automate the process of parallel programs development and optimization

Источник финансирования НИР

госбюджет, раздел 0110 (для тем по госзаданию)

Этапы НИР

# Сроки Название
1 1 января 2016 г.-31 декабря 2016 г. Создание комплекса инструментальных средств для автоматизации процессов разработки и оптимизации параллельных программ
Результаты этапа: В рамках первого этапа НИР выполнен ряд взаимодополняющих работ, полностью соответствующих целям и задачам НИР, утвержденному КП и ТЗ. По результатам проведенных исследований подготовлен «Отчет о НИР», отражающий все полученные в ходе работ результаты. В рамках НИР получены результаты интеллектуальной деятельности, в связи с чем 24.08.2016 подана заявка на изобретение JobDigest – способа преобразования и представления данных системного мониторинга, направленного на анализ динамики и эффективности выполнения суперкомпьютерных приложений, а также подана заявка на регистрацию товарного знака JobDigest. По тематике НИР имеются публикации: Проиндексировано Web of Science – 1 публикация: 1. Voevodin V., Voevodin V. Efficiency of exascale supercomputer centers and supercomputing education // High Performance Computer Applications: Proceedings of the 6th International Supercomputing Conference in Mexico (ISUM 2015). — Springer, 2016. — P. 14–23. Проиндексировано Scopus – 3 публикации: 1. Nikitenko D., Voevodin Vl., Zhumatiy S. Resolving frontier problems of mastering large-scale supercomputer complexes // Proceedings of the ACM International Conference on Computing Frontiers (CF'16). — ACM New York, NY, USA, 2016. — P. 349–352. 2. System monitoring-based holistic resource utilization analysis for every user of a large hpc center / D. Nikitenko, K. Stefanov, S. Zhumatiy et al. // Algorithms and Architectures for Parallel Processing. — Vol. 10049 of Lecture Notes in Computer Science. — Springer International Publishing, 2016. — P. 305–318. 3. Supercomputer application integral characteristics analysis for the whole queued job collection of large-scale hpc systems / D. Nikitenko, V. Voevodin, S. Zhumatiy et al. // 10th Annual International Scientific Conference on Parallel Computing Technologies, PCT 2016; Arkhangelsk; Russian Federation; 29 March 2016 through 31 March 2016. — Vol. 1576 of CEUR Workshop Proceedings. — 2016. — P. 20–30. Проиндексировано РИНЦ – 2 публикации: 1. Supercomputer application integral characteristics analysis for the whole queued job collection of large-scale hpc systems / D. A. Nikitenko, V. V. Voevodin, A. M. Teplov et al. // Вестник Южно-Уральского государственного университета. Серия "Вычислительная математика и информатика". — 2016. — Vol. 5, no. 4. — P. 32–45. 2. Никитенко Д. А., Воеводин В. В., Жуматий С. А. Octoshell: система для администрирования больших суперкомпьютерных комплексов // Вестник Южно-Уральского государственного университета. Серия "Вычислительная математика и информатика". — 2016. — Т. 5, № 3. — С. 76–95. Сделаны доклады на конференциях, в т.ч. международных: 1. Dmitry Nikitenko, Sergey Zhumatiy, Pavel Shvets Making Large-Scale Systems Observable — Another Inescapable Step Towards Exascale // Международная Конференция : Supercomputing Frontiers 2016, Сингапур, 14-18 марта 2016, 16 марта 2016. 2. Vladimir Voevodin, Dmitry Nikitenko, Sergey Zhumatiy, Konstantin Stefanov, Aleksey Teplov, Pavel Shvets, Vadim Voevodin Supercomputer Application Integral Characteristics Analysis for the Whole Queued Job Collection of Large-Scale HPC // Международная Конференция : Параллельные вычислительные технологии (ПаВТ) 2016, г.Архангельск, 28 марта - 1 апреля 2016, 31 марта 2016. 3. Никитенко Д.А., Теплов А.М. Выделение категорий суперкомпьютерных приложений на основе анализа их интегральных характеристик на конференции // Международная Конференция: Ломоносовские чтения - 2016, 18-27 апреля 2016, 21 апреля 2016. 4. Dmitry Nikitenko, Vladimir Voevodin, Sergey Zhumatiy Resolving Frontier Problems of Mastering Large-scale Supercomputer Complexes // Международная Конференция : ACM International Conference on Computing Frontiers 2016, Комо, Италия, 16-18 мая 2016, 16 мая 2016. 5. Konstantin Stefanov, Alexey Gradskov Study of CPU Usage Data Properties for Using in Performance Monitoring // Международная конференция "Суперкомпьютерные дни в России 2016", Москва, 26-27 сентября 2016, 27 сентября 2016. В результате выполнения первого этапа НИР все поставленные в техническом задании задачи выполнены в полном объеме и в установленный срок.
2 1 января 2017 г.-31 декабря 2017 г. Создание комплекса инструментальных средств для автоматизации процессов разработки и оптимизации параллельных программ
Результаты этапа: Разработаны принципы построения и реализован прототип подсистемы определения структуры потока заданий в суперкомпьютерных комплексах. Выполнено согласование архитектуры подсистемы определения структуры потока заданий в суперкомпьютерных комплексах с особенностями подсистемы сбора и формирования отчетов о динамике исполнения суперкомпьютерных приложений JobDigest для их эффективной работы в едином комплексе в программно-аппаратной среде одного суперкомпьютера.
3 1 января 2018 г.-31 декабря 2018 г. Создание комплекса инструментальных средств для автоматизации процессов разработки и оптимизации параллельных программ
Результаты этапа: В рамках работы по теме были проведены исследования методов эффективного сбора и хранения данных мониторинга суперкомпьютерных систем, а также их агрегации с целью визуализации. В процессе исследования было проведено сравнение баз данных для хранения временных рядов и возможности их использования для хранения данных мониторинга. Для унификации доступа к данным мониторинга начата разработка технологий единообразных запросов к базам данных, как формата SQL, как и NO-SQL. Выполнена адаптация системы мониторинга путем изменения периода усреднения данных в зависимости от этапа работы программы и от характеристик данных, получаемых от работающей программы. Эта адаптация реализована на основе полученных данных о характере изменения данных, получаемых от сенсоров системы мониторинга. Продолжена работа в направлении улучшения качества отображения данных мониторинга, проведено усовершенствование библиотеки и инструментария Tentaviz, позволяющего визуализировать данные мониторинга на любых устройствах с ПО, поддерживающем https и javascript. Улучшен механизм описания страниц во встроенном редакторе, добавлены новые возможности. Продолжена разработка фундаментальных основ и реализация программного комплекса для массового анализа качества параллельных приложений на основе технологий суперкомпьютерного кодизайна. Продолжена разработка технологий анализа динамики функционирования суперкомпьютерных комплексов на основе интеграции разнородных потоков данных. Принято решения о создании новой системы. Разработаны принципы разработки системы и составлен план разработки прототипа системы. Уточнены подходы для реализации технологий интеграции разнородных потоков данных. Завершена адаптация разработанных методов обнаружения аномального поведения для работы с выполняющимися задачами, для этих целей реализован новый метод на основе нейронных сетей. Разработан новый обучающий набор, который позволил более точно определять аномальное поведение задач. Реализовано оповещение пользователей о найденных аномальных приложениях. Это выполнено в рамках системы организации работы суперкомпьютеров Октошелл, что позволяет пользователям оперативно отслеживать, какие из выполняющихся (или уже выполненных) задач обладают аномальным поведением. На данный момент эта реализация проходит апробацию на суперкомпьютере Ломоносов-2. Проведено более детальное изучение корреляций между динамическими характеристиками. Проведен анализ корреляций для отдельных пользователей и типов задач, и это позволило выявить определенные зависимости между поведением характеристик, при этом было обнаружено, что зачастую для разных пользователей эти корреляции противоположны. Чаще всего зависимости встречаются между частотами кэш-промахов в память разного уровня, при этом характеристики загрузки ЦПУ коррелируют с другими характеристиками реже остальных. Исследовано и определено понятие аномального поведения в профиле потока задач. Описаны методы для обнаружения подобных аномалий, некоторые из которых были апробированы на реальных данных суперкомпьютера Ломоносов-2. В частности, исследованы типы аномального поведения профиля задач на основе текущего «снимка» состояния суперкомпьютера, а также на основе данных об аномальных приложениях, полученных с помощью разработанных ранее методов. Завершена программная реализация всех разработанных методов, проведена масштабная апробация программного решения на суперкомпьютере Ломоносов-2. Выполнены оценки производительности полученного решения. Разработана методика применения предложенного метода обнаружения аномалий на других суперкомпьютерах, которая описана в виде алгоритма действий, которые необходимо предпринять для портирования разработанного решения. Разработаны механизмы построения рейтинга масштабируемости различных приложений на доступных суперкомпьютерах. Исследованы возможности построения прогноза масштабируемости приложений на сверхбольшие конфигурации суперкомпьютеров. Выполнена оценка применимости использования метрики масштабируемости для планирования архитектуры будущих высокопроизводительных систем под специфику конкретной задачи. Разработаны методы прогнозирования сбойных ситуаций на суперкомпьютерах и превентивного реагирования на них для минимизации возможных последствий. Разработанные средства интегрированы в систему обеспечения оперативного контроля и эффективной автономной работы суперкомпьютерных комплексов Octotron. Выполнена апробация разработанных методов в Суперкомпьютерном комплексе МГУ.
4 1 января 2019 г.-31 декабря 2019 г. Создание комплекса инструментальных средств для автоматизации процессов разработки и оптимизации параллельных программ
Результаты этапа: Выполнено исследование эффективности взаимодействия и совместной работы ключевых подсистем обеспечения работы суперкомпьютеров, включая: подсистему тотального мониторинга, подсистему обеспечения автономного функционирования суперкомпьютерных комплексов, подсистему агрегирования контрольных данных по работе суперкомпьютеров, ситуационные экраны, подсистему определения структуры потока заданий в суперкомпьютерных комплексах, подсистему сбора и формирования отчетов о динамике исполнения суперкомпьютерных приложений. Выполнен сбор статистических данных, показывающих эффективность работы комплекса созданных подсистем. Представлена статистика работы как суперкомпьютерных приложений пользователей, так и суперкомпьютера в целом. Подготовлен научный отчет по этапу выполнения работ. Достигнуты следующие показатели: Количество публикаций в журналах, индексируемых в базе данных "Сеть науки" (WEB of Science) 2 Количество публикаций в журналах, индексируемых в базе данных Scopus 2 Количество публикаций в журналах, индексируемых в базе данных Российский индекс научного цитирования 3 Количество публикаций в журналах, индексируемых в других российских и международных информационно-аналитических системах научного цитирования (Google Scholar, European Reference Index for the Humanities, MathSciNet и др.) 3 Количество конференций 2
5 1 января 2020 г.-31 декабря 2020 г. Создание комплекса инструментальных средств для автоматизации процессов разработки и оптимизации параллельных программ
Результаты этапа: В рамках направления работ по созданию открытой энциклопедии свойств алгоритмов было выполнено расширение базовой цепочки дополнительным этапом, описывающим целевую вычислительную систему: «Задача-Метод-Алгоритм-Реализация-Компьютер». Этап «Компьютер» согласован с разработанными моделями процессоров и вычислительных систем. Также было выполнено проектирование функциональной и технологической архитектуры цифровой платформы Algo500, объединяющей информацию о структуре алгоритмов (энциклопедия), особенностях архитектуры компьютеров (модели процессоров и вычислительных систем CompZoo) с динамическими характеристиками выполнения программ на реальных компьютерных платформах (репозиторий данных PerfData). В ходе работ по разработке модульной системы мониторинга суперкомпьютеров было выполнено исследование влияния агентов системы мониторинга на выполнение пользовательских задач, разработаны средства связи между менеджером ресурсов суперкомпьютера и системой мониторинга, доработан Lua API для конфигурации системы мониторинга, облегчающая создание конфигурационных файлов. В рамках направления работ по разработке методов для проведения автоматического анализа потока приложений, выполняющихся на суперкомпьютере, были созданы новые механизмы на основе правил для изучения производительности приложений в отдельности и суперкомпьютера в целом, что потенциально дает возможность оперативно выявлять возникновение различных критичных ситуаций, на которые администраторам необходимо обращать внимание в первую очередь. Каждое правило описывает конкретную нештатную ситуацию, которая может приводить к снижению качества работы суперкомпьютеров. Реализовано 19 таких правил, которые на постоянной основе используются на суперкомпьютере Ломоносов-2. Кроме того, проведены масштабные работы по оптимизации параметров методов поиска схожих суперкомпьютерных приложений, благодаря чему было значительно улучшено качество их работы. В результате работ по разработке методов автономного функционирования и активной самодиагностики суперкомпьютерных систем было реализовано сохранение информации о состоянии компонентов суперкомпьютера в единую базу данных. Эти данные позволяют восстановить состояние суперкомпьютера на любой выбранный момент в прошлом. Это необходимо как для корректировки порогов реакций на сбойные ситуации, так и для изучения влияния состояний компонентов суперкомпьютера – как друг на друга, так и на выполняющиеся приложения пользователей. В рамках работ по созданию системы поддержки функционирования и сопровождения суперкомпьютерного центра были существенным образом переработаны методы межмодульного взаимодействия. В частности, был веден промежуточный слой ролей модулей. Новое архитектурное решение существенно повышает гибкость и настраиваемость системы в целом, упрощает добавление новых модулей и дает большую гибкость в настройке взаимодействия существующих модулей для конкретного рабочего процесса.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".

Прикрепленные файлы


Имя Описание Имя файла Размер Добавлен
1. Отчет по НИР гос.бюджет 2017 OTChET_2017_NIR_Gos.zadanie-Laboratoriya_408.pdf 411,5 КБ 18 декабря 2017 [voevodin@parallel.ru]