ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ИНХС РАН |
||
В настоящее время проблема низкой эффективности работы суперкомпьютерных комплексов во многом связана с тем, что администраторы системы не всегда могут своевременно обнаруживать и устранять причины снижения эффективности. Это в большей степени касается не выхода из строя оборудования (такие случаи можно отслеживать с помощью систем мониторинга), а неявного снижения эффективности работы определенных компонент суперкомпьютера, при условии, что внешне они продолжают работать корректно. Возникновение подобной ситуации связано с тем, что на данный момент нет достаточно гибких и удобных средств для оперативного и комплексного анализа всех характеристик работы вычислительных систем. Существующие решения либо позволяют анализировать только небольшую часть таких характеристик, либо представляют собой простые собственные решения, удовлетворяющие только небольшой набор конкретных нужд администраторов определенной системы. В данной работе планируется разработать системный подход к решению данного вопроса и разработать гибкий инструмент, который позволит проводить комплексный анализ различных аспектов работы суперкомпьютеров. Данный инструмент будет собирать в рамках единой модели все наиболее важные данные о свойствах и качестве выполняющихся на суперкомпьютере задачах – данные об эффективности их выполнения, размере и длительности, наличии характерных или аномальных сценариев поведения, использовании прикладных пакетов и библиотек, и т.д. С помощью гибких возможностей по агрегации будет задаваться нужная степень детализации, с какой необходимо предоставлять полученную информацию – по отдельным пользователям, проектам, прикладным пакетам, предметным областям, разделам суперкомпьютера, временным диапазонам и т.д. Это позволит создавать сотни и тысячи различных представлений для анализа состояния суперкомпьютера, что поможет администраторам выбирать или формировать наиболее подходящий для них способ. Весь подобный функционал будет предоставляться посредством единого web-интерфейса, и пользователь данного инструмента сможет самостоятельно выбирать, какие характеристики и в каком представлении ему необходимы. Создаваемый инструмент будет использован для анализа качества работы Суперкомпьютерного центру МГУ, однако его разработка будет вестись с учетом требований переносимости предложенного решения. Стоит отметить, что полнота и качество проводимого анализа определяются многолетним опытом сопровождения суперкомпьютерного комплекса МГУ – крупнейшего суперкомпьютерного комплекса России.
В результате выполнения проекта ожидается получить следующие научные результаты: 1. Будут разработаны методы интеграции информации от всех доступных источников данных о производительности суперкомпьютерных программных и аппаратных компонент. 2. Будут разработаны методы, позволяющие анализировать отдельные аспекты работы больших суперкомпьютерных комплексов. 3. Будет разработана модель, определяющая унифицированную структуру и форматы общего представления информации для изучения указанных аспектов работы суперкомпьютера. 4. Будет реализован программный инструмент, позволяющий выполнять тотальный анализ на основе разработанных ранее методов и подходов. Разработка данного инструмента будет выполняться с учетом требований модульности и переносимости создаваемого решения. Для доступа к данному инструменту будет реализован отдельный web-сайт. 5. Будет проведена масштабная апробация предложенного решения на больших суперкомпьютерных комплексах петафлопсного уровня производительности. Будет проведена оценка применимости и производительности разработанного инструмента.
грант Президента РФ |
# | Сроки | Название |
1 | 16 мая 2019 г.-31 декабря 2019 г. | Разработка методов и инструментальных средств тотального анализа качества работы больших суперкомпьютерных комплексов |
Результаты этапа: В рамках работ на данном этапе были получены следующие результаты. Была проведена интеграция входных данных от различных источников информации о качестве работы суперкомпьютерных центров (СКЦ). В частности, были реализованы методы сбора и интеграции данных о производительности суперкомпьютерных приложений; принадлежности задач к пользователям, проектам, организациям и предметным областям; использовании прикладных пакетов, библиотек и компиляторов; импорте/экспорте данных на суперкомпьютер; работе файловой системы. На данный момент не выполнена только интеграция данных о производительности вычислительных узлов без привязки к задачам, поскольку для сбора этой информации необходима разработка нового модуля системы мониторинга DiMMon, которая разрабатывается в рамках другого проекта. Однако реализация данного модуля запланирована на февраль-март текущего года. Собираемые данные хранятся в рамках единого решения, использующего базы данных MongoDB и InfluxDB. На данном этапе была выполнена существенная часть работ по разработке модели, определяющей унифицированную структуру и форматы общего представления информации для изучения различных аспектов работы СКЦ. Для этих целей параллельно выполнялись работы по двум направлениям. Велась разработка базовых методов анализа отдельных аспектов работы СКЦ на основе существующих исследований в этой области и нашего опыта сопровождения и анализа качества работы больших СКЦ. Такой подход позволяет подойти к решению вопроса создания модели с практической точки зрения. На данном этапе эта работа была завершена, и был составлен и описан базовый набор методов, позволяющий оценивать наиболее важные аспекты работы суперкомпьютерного центра (в частности, пользовательскую активность, свойства потока задач и качество работы системного программного обеспечения). Отметим, что на следующем этапе возможно уточнение и дополнение разработанных методов с учетом новых полученных результатов. Также отдельно велась разработка первичной модели, при этом рассматривались все возможные целевые функции и влияющие на них факторы, которые могут быть важны с точки зрения анализа качества работы больших СКЦ. Такой подход является более фундаментальным и позволяет учесть все возможные особенности и аспекты с точки зрения теории. При этом первый подход позволяет взглянуть на проблему с другой стороны и поэтому полезен для уточнения второго при переходе от теории к практике. На данном этапе для двух групп – пользователей суперкомпьютера и администраторов – был определен набор целевых характеристик, которые описывают главные цели данных групп при анализе качества работы СКЦ. Для выделенных целевых характеристик были определены все возможные факторы программно-аппаратной среды суперкомпьютера, которые могут влиять на эти характеристики и потому должны быть учтены в разрабатываемой модели. Было начато определения форматов и структуры представления данных, описывающих влияние выбранных факторов на целевые характеристики. Был реализован пилотный вариант программного инструмента, предоставляющего web-интерфейс для доступа к полученным результатам. Для апробации данного решения было реализовано множество отдельных примеров графиков, позволяющих на практике оценивать различные аспекты качества работы суперкомпьютерного центра. Проведенная апробация показала, что выбранное решение применимо и показывает достаточную производительность для целей данного проекта, а собираемых данных в целом достаточно для проведения необходимого анализа. | ||
2 | 1 января 2020 г.-31 декабря 2020 г. | Разработка методов и инструментальных средств тотального анализа качества работы больших суперкомпьютерных комплексов |
Результаты этапа: - Разработаны методы интеграции информации от основных доступных источников данных о производительности суперкомпьютерных программных и аппаратных компонент. - Разработана модель для определения качества работы суперкомпьютерных систем. Данная модель определяет унифицированную структуру и форматы общего представления информации для изучения указанных аспектов работы суперкомпьютера. Модель реализована для трех групп людей - пользователя, администратора и руководства суперкомпьютерного центра. - Реализован программный инструмент, позволяющий выполнять разносторонний анализ на основе разработанных ранее методов и подходов. Для доступа к данному инструменту реализован отдельный web-интерфейс. - Проведена масштабная апробация предложенного решения на больших суперкомпьютерных комплексах петафлопсного уровня производительности. Проведенная апробация показала применимость полученного решения на практике. |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".