ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ИНХС РАН |
||
Современный суперкомпьютер состоит из множества компонентов различной природы. С каждым компонентом могут быть сопоставлены некоторые свойства, характеризующие его функциональность и/или работоспособность: температура, объем доступной памяти, загруженность и т.д. Любые процессы и события, возникающие в ходе работы суперкомпьютера, приводят, в частности, к изменениям свойств компонентов. Изменения свойств могут быть штатными, т.е. возникающими в ходе корректной работы суперкомпьютера; могут быть нештатными – вызванными сбоями и авариями компонентов. Кроме того, изменения могут вызываться деградацией или постепенным выходом из строя компонентов и подсистем суперкомпьютера. Изменение свойств некоторых компонентов может, с одной стороны, оказывать влияние на свойства других компонентов, а с другой стороны, на работу суперкомпьютерных приложений, задействующих эти компоненты. Поэтому информация о структурно-функциональных свойствах суперкомпьютера необходима, во-первых, системным администраторам – для понимания состояния вычислительной системы, а во-вторых, пользователям – для изучения возможного влияния состояния компонентов суперкомпьютеров на выполнение их задач. Причем для обеих категорий интерес представляет как текущее состояние суперкомпьютера, так и его состояние в прошлом. В рамках настоящего проекта будет определен набор структурно-функциональных свойств, важных для анализа функционирования суперкомпьютера. Будут определены источники и методы получения значений этих свойств, а также частота их сохранения, достаточная для анализа. Будут разработаны методы сохранения выбранных структурно-функциональных свойств и реконструкции их для выбранного момента времени. Будут созданы средства анализа структурно-функциональных свойств с точки зрения влияния их друг на друга и на работу приложений пользователей. Результаты исследования будут способствовать повышению надежности и эффективности работы суперкомпьютерных систем.
The project is devoted to study of structural and functional properties of supercomputers. These properties represent all variety of processes, characteristics and events during supercomputer exploitation. Any modern supercomputer consists of many components of different origins. With every component, a set of its values may be associated representing its state: temperature, memory size, load, etc. Every process and event inside supercomputer influences component property changes. They may be treated as normal or abnormal; besides these, changes may be triggered by component and subsystem degradation. Changes of some component properties may affect other components and also applications using these components. This is the reason why the information about structural and functional properties is important for supercomputer administration, for understanding the overall supercomputer state, and also for users, for study of component states affecting their application. Both categories are interested in this kind of information for the current moment and also for any time before. During the project proposed, the set of structural and functional properties important to supercomputer state analysis will be defined. For these properties, sources and obtaining methods will be investigated as well as the obtaining frequency suitable for the analysis. The methods of saving and reconstruction of structural and functional properties will be developed. The tools for properties analysis will be created to investigate their affection to each other and also to applications behavior. The project results will improve overall reliability and efficiency of supercomputing systems.
1. Методы и средства сохранения, восстановления и воспроизведения полного набора эксплуатационных характеристик вычислительного комплекса на любой момент времени; 2. Методы и средства отображения, интерпретации и анализа сохраненного набора эксплуатационных характеристик; 3. Методы и средства исследования связей между набором эксплуатационных характеристик части компонентов суперкомпьютера и свойств приложения, использовавших эту часть компонентов – диагностика влияния на работу приложения; 4. Базовые методы и средства для исследования взаимного влияния свойств компонентов при возникновении сбойных ситуаций при работе суперкомпьютера. Результаты 1, 2 и 4 важны прежде всего для администраторов и держателей суперкомпьютерных комплексов. Результат 3 представляет интерес для конечных пользователей: как правило, они не осведомлены о точном техническом состоянии компонентов суперкомпьютера, поэтому информация о состоянии задействованных вычислительных ресурсах поможет им в оценке эффективности проведения своих расчетов. Статистика и аналитика, накапливаемые в ходе разработки результатов 1 и 2, несомненно, будут представлять интерес для разработчиков компонентов суперкомпьютера, предоставляя ценную обратную связь. Результаты проекта будут представлены на основных международных суперкомпьютерных мероприятиях: конференциях «Суперкомпьютерные дни в России» (Россия), «Параллельные вычислительные технологии (ПаВТ)» (Россия), ISC High Performance (Германия), Supercomputing Conference (США).
Коллектив настоящего проекта обладает большим опытом в проектировании, сопровождении и эксплуатации суперкомпьютерных комплексов. В настоящее время коллектив отвечает за поддержку Суперкомпьютерного комплекса Московского государственного университета имени М.В. Ломоносова. В состав этого комплекса входят высокопроизводительные суперкомпьютеры Ломоносов и Ломоносов-2, занимающие соответственно 3-ю и 1-ю позиции в рейтинге Топ50 самых мощных суперкомпьютеров России. Результаты работы по проекту будут апробироваться и внедряться в практику работы Суперкомпьютерного комплекса МГУ. С 2013 года коллектив проекта координирует разработку программного комплекса Octotron, предназначенного для обеспечения надежной бесперебойной работы сложных вычислительных систем. Данный программный комплекс будет использован в качестве технологической основы при выполнении настоящего проекта. Будут также использованы и другие разработки коллектива: • система мониторинга DiMMon – мощный инструмент иерархического низкоуровневого мониторинга компонентов суперкомпьютера. • Octoshell – гибкая модульная система, предназначенная для администрирования и поддержки суперкомпьютеров; • ситуационный экран системного администратора – технология построения визуальных представлений текущего состояния суперкомпьютера; • технология JobDigest – методика анализа эффективности суперкомпьютерных приложений по данным системного мониторинга.
грант РФФИ |
# | Сроки | Название |
1 | 1 января 2020 г.-31 декабря 2020 г. | Разработка методов сохранения, реконструкции и анализа структурно-функциональных свойств суперкомпьютерных систем 1 |
Результаты этапа: 1. Определен набор базовых структурно-функциональных свойств, важных для анализа функционирования суперкомпьютера. На данном этапе к таковым отнесены данные мониторинга служебных серверов суперкомпьютера Ломоносов-2, состояние его коммутаторов сетей Infiniband, состояние разделов и очередей суперкомпьютера и т.д. 2. Определены источники интересующих нас структурно-функциональных свойств. 3. Реализован механизм сохранения структурно-функциональных свойств. Числовые характеристики сохраняются в СУБД InfluxDB и Victoriametrics. Проводится сравнительных анализ этих СУБД на предмет оптимального соответствия задачам проекта. 4. Отработаны методы работы с сохраненными данными структурно-функциональных свойств. Реализованы базовые методы визуализации срезов состояния суперкомпьютера за выбранный период. | ||
2 | 1 января 2021 г.-31 декабря 2021 г. | Разработка методов сохранения, реконструкции и анализа структурно-функциональных свойств суперкомпьютерных систем 2 |
Результаты этапа: 1. Созданы полнофункциональные методы и средства работы с сохраненными данными структурно-функциональных свойств и реконструкции состояния структурно-функциональных свойств на заданный момент времени. Расширен состав сохраняемых данных. Налажено сохранение событий из системных журналов вычислительных узлов и служебных серверов суперкомпьютера "Ломоносов-2". 2. Собрана и проанализирована статистика по сбоям пользовательских приложений. Определен набор сбойных ситуаций, приводящих к сбою приложений. Разработаны прототипы инструментов для анализа влияния структурно-функциональных свойств суперкомпьютера на выполнение приложений. 3. Реализована пробная эксплуатация разработанных технологий и инструментов на суперкомпьютере "Ломоносов-2". Организована совместная работа с подсистемами TASC, Job Digest, DiMMon. | ||
3 | 1 января 2022 г.-31 декабря 2022 г. | Разработка методов сохранения, реконструкции и анализа структурно-функциональных свойств суперкомпьютерных систем 3 |
Результаты этапа: 1. Разработан базовый инструментарий для исследования взаимного влияния структурно-функциональных свойств компонентов при возникновении сбойных ситуаций. Был создан механизм сбора и рассылки ежедневного дайджеста событий со статистикой по сбойным задачам, вычислительным узлам и служебным серверам. Анализатор состояния суперкомпьютера во временной окрестности некорректно завершенных задач был расширен информацией о событиях из системных журналов служебных серверов суперкомпьютера "Ломоносов-2", а также статистикой по потенциально сбойным вычислительным узлам. 2. Выполнен анализ накопленных за 2021-2022 года данных о некорректно завершившихся заданиях и сопутствующих им событиям, зафиксированным на вычислительных узлах и служебных серверах суперкомпьютера "Ломоносов-2". Выделены типы событий, при возникновении которых повышается вероятность сбоев при выполнении пользовательских задач. 3. Разработанные технологии и инструменты внедрены в практику Суперкомпьютерного комплекса МГУ. |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".