ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ИНХС РАН |
||
С ростом размеров и сложности вычислительных комплексов все большее значение приобретает развитие систем мониторинга этих комплексов. Важность этого направления обусловлена сложностью современных вычислительных систем и их размерами. Только действующая в автоматическом режиме система мониторинга может справиться с задачей отслеживания огромного количества параметров, характеризующих работу современного суперкомпьютера. Система мониторинга должна отслеживать все нужные параметры функционирования программного и аппаратного обеспечения с нужной частотой съема этих параметров и обеспечивая необходимое время реакции на происходящие события. При этом сама система мониторинга должна быть достаточно «легковесной», чтобы создаваемые ей накладные расходы не приводили к существенному снижению производительности обслуживаемой ей вычислительной системы. Все эти требования приводят к тому, что построение систем мониторинга является важной и сложной задачей Также с ростом размеров вычислительных систем и увеличивающимся уровнем их параллелизма все труднее становится написание программ, эффективно использующих предоставляемые ресурсы. Как следствие, все большее значение приобретает анализ эффективности параллельных программ. При этом подходы, основанные на сборе трасс, инструментировании и профилировании, показывают ограниченную применимость для анализа высокопараллельных программ в связи с большим уровнем накладных расходов и большими ресурсами, требуемыми для обработки получаемых данных. В этих условиях мониторинг производительности становится методом, получающим все более широкое распространение. Существует большое количество средств для мониторинга производительности. Все эти средства выбирают интервал для съема данных об исследуемой программе без учета особенностей самих этих данных, таких как возможная скорость их изменения. В основном учитывается пригодность получаемого объема данных для последующей обработки. Используемые методы уменьшения количества данных (прореживание), также применяются для получения пригодного для обработки потока данных и без учета свойств этих данных. В рамках данного проекта предлагается провести теоретическое и практическое исследование характера данных, используемых в системах мониторинга, с точки зрения особенностей их изменения с течением времени на разных временных шкалах. На основании этого исследования предлагается разработка рекомендаций по установлению интервала съема данных для систем мониторинга производительности. Кроме того, предполагается разработка методов адаптивного изменения интервала съема данных в зависимости от характера изменения данных для исследуемой задачи.
грант РФФИ |
# | Сроки | Название |
1 | 1 января 2016 г.-31 декабря 2016 г. | Разработка принципов построения адаптивных систем тонкого мониторинга суперкомпьютеров |
Результаты этапа: В рамках работ по проекту было проведено теоретическое исследование датчиков, используемых для мониторинга производительности. Было предложено деление датчиков по типу выдаваемого значения, по моменту изменения значения датчика, по способу измерения состояния системы, которое отражает данный датчик. Деление датчиков по типу выдаваемого значения: текущее значение и счетчик, накапливающий результаты. Деление по моменту изменения значения датчика: в момент изменения измеряемой величины и с каким-то периодом. Деление по способу измерения состояния системы, которое отражает данный датчик: измерения в любой момент или измерение при помощи сэмплирования. На примере датчиков использования памяти и датчиков объема передаваемых и принимаемых через интерфейс данных было проведено изучение шаблонов использования ресурсов, измеряемых этими датчиками. Были предложены методы практического исследования характера изменений датчиков. Были предложены отдельные методы для разных классов датчиков: датчиков, быстрое изменение которых встречается в реальных программах (типа датчиков объема данных); датчиков, которые хотя и могут меняться быстро, но такое быстрое изменение создаст много накладных расходов, и поэтому маловероятно в реальных программах (датчики использования памяти). Была исследована точность значений датчиков уровня загрузки процессора. Получена зависимость точности от интервала опроса датчика. Было проведено исследование интервала изменений данных, на основе которых вычисляются значения этих датчиков. Было показано, что из-за использования сэмплирования данные этого датчика могут существенно отличаться от ожидаемых данных. | ||
2 | 1 января 2017 г.-31 декабря 2017 г. | Разработка принципов построения адаптивных систем тонкого мониторинга суперкомпьютеров |
Результаты этапа: В рамках работ по проекту было продолжено исследование датчиков загрузки процессора в условиях, приближенных к тем, которые имеются при выполнении реальных задач. Было проведено исследование датчиков объема выделенной памяти. Были проанализированы данные выполнения реальных задач, и получены данные по шаблонам изменения значению датчиков занятого объема оперативной памяти. Для исследования свойств датчиков объема и количества пакетов, проходящих через сетевые интерфейсы, был разработан метод получения трасс трафика InfiniBand, который позволяет получить максимально детальные данные (с точностью до каждого пакета данных) о трафике. На основе предложенного метода был выработан способ получения некоторых интегральных коммуникационных свойств реальных параллельных программ. Для получения практической возможности построения адаптивных систем был реализован метод создания отчета о ходе выполнения параллельной программы с возможностью изменения детальности получаемой информации. | ||
3 | 1 января 2018 г.-31 декабря 2018 г. | Разработка принципов построения адаптивных систем тонкого мониторинга суперкомпьютеров |
Результаты этапа: На заключительном этапе выполнения проекта было реализовано динамическое изменение интервала опроса датчиков на вычислительных узлах и интервала усреднения данных. Для этого была реализована возможность загружать в модуль, выдающий управляющие сообщения, скрипты на языке Lua. Эти скрипты по приходящим извне командам или по реакции на какие-то события в агенте могут посылать управляющие сообщения, меняющие настройки таймеров, задающих указанные интервалы. Для определения необходимости увеличения интервала опроса датчиков на вычислительном узле был реализован модуль, осуществляющий вычисление скорости изменения значения датчика. На основании выдачи скорости изменения датчика объема свободной оперативной памяти принимается решение об изменении интервала опроса датчиков. Кроме того, для сигнализации серверной части о необходимости изменения интервала усреднения в пакет данных, передаваемых серверной части, вставляется дополнительный псевдодатчик. при получении пакета данных, содержащих этот псевдодатчик, серверная часть также изменяет интервал усреднения данных. На основании проведенных экспериментов сформулированы рекомендации по выбору интервалов опросов датчиков и усреднения данных в серверной части. |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".