ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ИНХС РАН |
||
В рамках современных суперкомпьютерных центров одновременно работает множество исследовательских групп, за работой которых стоит решение реальных прикладных задач. Вместе с ростом возможностей и масштабов суперкомпьютеров, растет и число, и сложность суперкомпьютерных приложений. Современный суперкомпьютер представляет собой большой и сложный вычислительный комплекс, состоящий из десятков тысяч компонент. При этом он обладает сложной архитектурой и зачастую является неоднородным, что усложняет мониторинг состояния вычислительной системы. В условиях одновременного использования вычислительных ресурсов множеством пользователей эффективность каждого запуска приложения пользователем оказывает влияние и на работу в рамках решаемой прикладной задачи, и на работу соседних проектов, и на работы всей вычислительной системы в целом. При этом пользователи, как правило, не имеют возможности оценить историю запусков своих программ и характер использования ресурсов, часто история запусков доступна за крайне ограниченный интервал и содержит лишь базовую информацию о запусках. Предлагаемые в рамках данного проекта работы направлены на исследование принципов анализа и разработку конкретных методик работы с банком интегральных характеристик выполненных приложений и инструментария работы с ним. Принципиально важно, что разрабатываемые методы должны удовлетворять следующим основополагающим требованиям. 1) Возможность анализировать характеристики выполнения любых ранее выполненных задач на суперкомпьютерной системе, включая серии запусков. Для передовых вычислительных систем число задач может достигать десятков тысяч в сутки. 2) Учет особенностей требований к анализу всеми категориями пользователей: от начинающих исследователей до администраторов и держателей суперкомпьютеров. 3) Возможность и практичность массового применения разработанных методов пользователями суперкомпьютерных систем в каждодневной практике в режиме 24/7. Имея данные по всем запускам задач, появляется возможность исследования закономерностей и тенденций в использовании ресурсов отдельным пользователем, отдельным прикладным пакетом, в рамках отдельного проекта или раздела суперкомпьютера, вплоть до всего суперкомпьютерного центра в целом, определяя возможность повышения эффективной отдачи от использования вычислительных ресурсов на всех уровнях.
На первом этапе, в 2017 году, планируется получить следующие результаты: 1) Выделен набор ключевых интегральных характеристик приложений, отражающих степень и характер использования вычислительных ресурсов: данные от системы мониторинга, данные от СУПЗ, отчеты о результатах глубокого анализа приложения, вспомогательные теги и др. 2) Разработаны базовые методы анализа истории выполнения приложений для всех категорий пользователей. 3) Определен необходимый формат хранения выделенных характеристик. 4) Разработана структура банка интегральных характеристик выполненных приложений. 5) Исследованы требования к web- инструменту, реализующему разработанные методы анализа (Никитенко Д.А., Теплов А.М., Воеводин Вад.В.). 6) Реализован базовый прототип web-инструментария, реализующий разработанные методы. 7) Исследованы и реализованы методы автоматизированного внесения данных по всем выполняющимся задачам пользователей СКЦ МГУ. Банк наполнен интегральными характеристиками на основании имеющихся данных системного мониторинга и логов СУПЗ. 8) Проведена интеграция минимум с одним инструментом анализа эффективности отдельных приложений. 9) Пользователям СКЦ предоставлен доступ к прототипу. 10) Текущие результаты по проекту представлены не менее чем на одной научной конференции.
Коллектив исполнителей данного проекта уже более 15 лет успешно работает в области высокопроизводительных вычислений и имеет богатый опыт успешно выполненных проектов. Одной из важнейших задач, которая выполняется коллективом каждодневно, является работа по сопровождению вычислительных систем суперкомпьютерного комплекса Московского университета (http://parallel.ru/cluster/), в котором на данный момент насчитывается сразу несколько вычислительных систем, входящие в рейтинг Топ50 наиболее мощных вычислительных систем СНГ (http://top50.supercomputers.ru). Помимо работ по сопровождению и администрирования суперкомпьютерного парка Московского университета, коллектив имеет богатый опыт успешного участия и выполнения научно-исследовательских работ. Octoshell — система управления доступом к Суперкомпьютерному комплексу. Разработанный программный комплекс создан на основе разработанной модели в рамках гранта РФФИ 13-07-00750. В данный момент Octoshell активно используется в суперкомпьютерном центре Московского университета, обеспечивая поддержку работы исследовательских проектов из более чем 350 организаций. В Octoshell зарегистрированы и имеют возможность работать более 3000 пользователей, а службой поддержки за год решается около 1000 обращений пользователей. Выполнение работ в рамках гранта РФФИ 13-07-00786. В результате выполненных исследований разработана методика описания типовых причин и признаков производительности, основанная на исследовании поведения динамических характеристик выполнения приложений. Разработан подход, получивший название Job Digest, позволивший получать данные системного мониторинга по каждой отдельной задаче после ее окончания по запросу. По запросу создается отчет о ходе выполнения задачи, в котором присутствует ряд графиков-значений предопределенных датчиков из доступных от системы мониторинга и краткая сводная информация по задаче.
грант РФФИ |
# | Сроки | Название |
1 | 12 апреля 2017 г.-31 декабря 2017 г. | Разработка методов анализа характеристик масштабного банка задач в оперативной 7*24 практике суперкомпьютерных центров |
Результаты этапа: в 2017 году получены следующие результаты: 1) Выделен набор ключевых интегральных характеристик приложений, отражающих степень и характер использования вычислительных ресурсов: данные от системы мониторинга, данные от СУПЗ, отчеты о результатах глубокого анализа приложения, вспомогательные теги и др. 2) Разработаны базовые методы анализа истории выполнения приложений для всех категорий пользователей. 3) Определен необходимый формат хранения выделенных характеристик. 4) Разработана структура банка интегральных характеристик выполненных приложений. 5) Исследованы требования к web- инструменту, реализующему разработанные методы анализа. 6) Реализован базовый прототип web-инструментария, реализующий разработанные методы. 7) Исследованы и реализованы методы автоматизированного внесения данных по всем выполняющимся задачам пользователей СКЦ МГУ. Банк наполнен интегральными характеристиками на основании имеющихся данных системного мониторинга и логов СУПЗ. 8) Проведена интеграция с инструментом анализа эффективности отдельных приложений JobDigest. 9) Пользователям СКЦ предоставлен доступ к прототипу. 10) Текущие результаты по проекту представлены на одной российской и двух международных конференциях. | ||
2 | 1 января 2018 г.-31 декабря 2018 г. | Разработка методов анализа характеристик масштабного банка задач в оперативной 7*24 практике суперкомпьютерных центров |
Результаты этапа: В рамках этапа проведен ряд взаимодополняющих работ. Проведено уточнение используемого набора характеристик и структуры банка приложений, по результатам опубликована статья и сделано секционное выступление на международной конференции ПаВТ. Проведен опрос пользователей и осуществлен анализ опыта использования разработанных методов анализа и инструментария реальными пользователями крупного СКЦ. По результатам опубликована статья в международном рецензируемом журнале. Разработанные методы анализа получили уточнение на основании опыта первого года применения методов пользователями. В том числе, проведена разработка методов расширенной визуализации для работы с интегральными характеристиками выполненных приложений. Прототип нового интерактивного инструмента доступен администраторам Центра, будет предоставлен пользователям в начале 2019 года к моменту начала ежегодной перерегистрации пользователей СКЦ МГУ. По результатам разработки подана статья на международную конференцию, идет рецензирование. Разработанный инструментарий - наиболее ценный из всего множества полученных результатов. на основании богатого опыта администрирования все основания полагать, что он будет применяться подавляющим большинством пользователей СКЦ. Представление полученных результатов работы на международных конференциях и в публикациях - международная наунчаня конференция ПаВТ (http://agora.guru.ru/pavt) - секционный доклад и публикация Scopus; - Всероссийский семинар по параллельным, распределенным и облачным вычислениям для молодых ученых Ural-PDC (https://ural-pdc.org/2018/) - пленарный доклад, статья принята к публикации (Scopus) - статья в международном журнале Supercomputing Frontiers and Innovations, Scopus | ||
3 | 1 января 2019 г.-31 декабря 2019 г. | Разработка методов анализа характеристик масштабного банка задач в оперативной 7*24 практике суперкомпьютерных центров |
Результаты этапа: По состоянию на 12.12.19: Доработаны и расширены все разработанные методы. Ведется формирование законченной методики анализа истории выполнения программ для всех групп пользователей. Запущена полномасштабная версия инструментов анализа, досьупная пользователям в личном кабинете системы Octoshell. Проведена апробация и устранены полученные в ходе апробации замечания. Подготовленное тиражируемого решения для внедрения в практику ведущих СКЦ доступно на github вместе с исходным кодом системы Octoshell. Все полученные результаты представлены на конференциях: - ПаВТ (http://agora.guru.ru/pavt), - Russian Supercomputing Days (http://russianscdays.org) в 2019 году в рамках проекта опубликовано 3 работы (2 - Scopus, 1 - РИНЦ), еще одна работа (WebOfScience) принята к публикации. |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".