ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ИНХС РАН |
||
Архитектура суперкомпьютерных центров совершенствуется с каждым годом. Это приводит к тому, что эффективность выполнения приложений деградирует, поскольку все сложнее становится учитывать возрастающее многообразие аппаратных особенностей суперкомпьютеров, каждая из которых может кардинальным образом влиять на скорость расчетов. На данный момент эффективность на уровне 3-5 процентов уже является нормой; однако подобное неоптимальное использование вычислительных ресурсов приводит к серьезным временны́м и, в конечном итоге, финансовым потерям. Требуется разработка прототипов программно-технических решений, которые позволят проводить разносторонний анализ эффективности как отдельных пользовательских приложений, так и суперкомпьютерного центра в целом. Целью прикладного научного исследования является создание научных и программно-технических решений в области обеспечения эффективности суперкомпьютерных центров малого, среднего и высокого уровней производительности, а также перспективных центров сверхвысокого уровня производительности. В результате выполнения проекта будут разработаны прототипы программно-технических решений, которые будут охватывать наиболее значимые аспекты функционирования большого суперкомпьютерного комплекса с точки зрения его использования, администрирования и поддержки его функционирования.
Supercomputer center architecture is improving every year. This leads to the fact that the application efficiency is degraded because it becomes more difficult to take into account the increasing number of supercomputer hardware features, each of which may significantly influence the execution time. At the moment, the efficiency at the level of 3-5% is already normal; however, such a non-optimal use of computer resources causes serious time and, eventually, financial losses. We need to develop prototypes of software and hardware solutions that will enable to carry out comprehensive analysis of the effectiveness of both user applications and supercomputer center in general. The aim of applied research is to provide scientific and software-hardware solutions enabling efficiency of supercomputer centers of small, medium and high levels of performance as well as advanced ultra-high performance level centers. As a result of the project, prototypes of software-hardware solutions will be developed that will cover the most important aspects of the operation of a large supercomputer system in terms of its use, administration and support.
В результате выполнения проекта будут получены следующие результаты: 1. Будут разработаны методики оценки технических характеристик функционирования суперкомпьютерных центров. По данным методикам будут выполнены соответствующие оценки, отражающие общий объем данных, которые необходимо собирать и анализировать для получения детальной информации о состоянии современных суперкомпьютеров. 2. Будут разработаны прототипы программно-технических решений по созданию системы обеспечения эффективности функционирования суперкомпьютерных центров. Данные прототипы программно-технических решений будут охватывать наиболее значимые аспекты функционирования большого суперкомпьютерного комплекса с точки зрения его использования, администрирования и поддержки его функционирования. 3. Будут определены технические требования к разработанным решениям, составлено описание принципов функционирования созданных решений, разработаны методы программной реализации отдельных программных компонентов системы обеспечения эффективности функционирования суперкомпьютерных центров.
Одной из наиболее значимых задач, выполняемых коллективом исполнителей, является работа по сопровождению и обеспечению эффективной эксплуатации вычислительного комплекса МГУ имени М.В.Ломоносова. В ходе работ по поддержке функционирования комплекса коллектив ежедневно сталкивается со всем многообразием возможных сложностей и ошибок, встающих как перед начинающими пользователями и программистами, так и перед опытными специалистами в области математического моделирования, численного решения задач и параллельной обработки данных. Обширный опыт преодоления нештатных ситуаций самого разного масштаба определяет мощный, качественный задел для исследований в области обеспечения эффективности суперкомпьютерных центров во всех аспектах их функционирования. Коллектив исполнителей обладает большим опытом успешного выполнения научно-исследовательских работ и разработки системного и прикладного программного обеспечения. Имеются существенные наработки в области анализа информационной структуры программ, мониторинга и анализа производительности приложений в вычислительных системах, организации вычислений в масштабных распределенных средах. В частности, был успешно выполнен совместный российско-европейский проект HOPSA (HOlistic Performance System Analysis – http://www.vi-hps.org/projects/hopsa/overview). Основным полученным результатом является разработанный в рамках проекта экспериментальный образец комплекса технологий и программных средств, ориентированный на всестороннее изучение динамических свойств суперкомпьютерных приложений, основанный на данных системного мониторинга. Индустриальный партнер проекта – ОАО «Т-Платформы» обладает необходимым опытом и ресурсами для создания научно-технической продукции в области суперкомпьютерных технологий. Период деятельности компании «Т-Платформы» в суперкомпьютерной отрасли – более 10 лет. В настоящее время ОАО «Т-Платформы» является одним из лидеров российского рынка высокопроизводительных вычислений.
Достижения за 2015 год: На основе определенной в прошлом году архитектуры разработаны все 10 компонент общего прототипа программной системы обеспечения эффективности функционирования суперкомпьютерных центров. Таким образом, разработана вся функциональность по 4-м основным подзадачам: 1) обеспечение надежности и работоспособности систем; 2) анализ эффективности приложений и суперкомпьютерных центров в целом; 3) визуализация полученных результатов; 4) тотальный мониторинг состояния суперкомпьютерных центров. Достижения за 2016 год: Разработан независимый банк типичных нештатных ситуаций. Проведена интеграция разработанных компонент и выполнена реализация общего прототипа программного комплекса. Успешно проведены экспериментальные исследования общего прототипа. В рамках данных исследований предложен набор рекомендаций по оптимизации и расширению функциональности общего прототипа, на основе которых выполнены доработки различных частей прототипа. После выполнения данных работ выполнена корректировка программной документации. Разработаны методики оценки объемов данных, циркулирующих и обрабатываемых разработанным прототипом, а также пригодности задействованных в разработанном прототипе подходов. По данным методикам выполнены оценки, которые показывают применимость предложенных решений на современных и будущих суперкомпьютерах. Выполнено обобщение полученных в рамках проекта результатов, а также разработаны рекомендации по практическому применению и коммерциализации результатов. Разработан проект технического задания на проведение ОКР.
ФЦП: Федеральная целевая программа, Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014 - 2020 годы |
# | Сроки | Название |
1 | 5 июня 2014 г.-31 декабря 2014 г. | Выбор направления исследований |
Результаты этапа: Выполнен аналитический обзор современной научно-технической, нормативной, методической литературы, затрагивающей научно-техническую проблему. Данный обзор включает анализ существующих исследований по 8 различным направлениям и показывает, что, несмотря, на актуальность и наличие большого количества работ по рассматриваемой проблеме, на данный момент не существует общего подхода к ее решению. Проведены патентные исследования, которые показали, что исследуемый объект «Способ обеспечения эффективности суперкомпьютерных центров» обладает патентной чистотой. Регламент оценки патентной чистоты выполнен в соответствии с задачами патентных исследований в объеме тематического задания. Полученные результаты удовлетворяют поставленным требованиям в рамках задач патентных исследований. Разработаны следующие методики оценок: 1) объемов и вариабельности данных о состоянии компонентов суперкомпьютера и их общего объема; 2) объема и частоты съема данных, необходимых для обеспечения бесперебойного функционирования суперкомпьютера; 3) объема данных о структуре потока программ, исполняющихся на суперкомпьютере, и структуры этих данных; 4) свойств различных способов хранения данных с точки зрения их пригодности для хранения необходимых объемов данных и их выборки для последующей обработки. По разработанным методикам выполнены соответствующие оценки, отражающие общий объем данных, которые необходимо собирать и анализировать для получения детальной информации о состоянии современных суперкомпьютеров. Также выполнены теоретические оценки необходимого объема хранимых данных для анализа эффективности работы реальных приложений пользователей. Данные оценки показывают практическую возможность решения поставленных в рамках проекта задач. Разработана архитектура прототипа программной системы обеспечения эффективности функционирования суперкомпьютерных центров и определен набор его компонентов. В предложенной архитектуре прототип состоит из 4 связанных логических блоков, каждый из которых включает несколько компонентов, зачастую также связанных между собой. Предлагаемый многокомпонентный подход реализации прототипа позволит при необходимости достаточно легко наращивать функциональность, а также добавлять новые или совершенствовать существующие компоненты. | ||
2 | 1 января 2015 г.-30 июня 2015 г. | Теоретические исследования поставленных перед ПНИ задач (1 очереди) |
Результаты этапа: Разработана базовая функциональность компонентов прототипа программной системы обеспечения эффективности функционирования суперкомпьютерных центров. Для всех компонент приведено описание текущего состояния реализации и планируемых направлений дальнейшей разработки, а также описание предполагаемой взаимосвязи компонент между собой. Разработаны прототипы двух компонент в составе общего прототипа: 1) прототип программных средств для определения ключевых характеристик эффективности работы реальных приложений пользователей: использования CPU, оперативной памяти, коммуникационной сети и ввода-вывода; и 2) прототип программных средств для получения данных о структуре потока программ, исполняющихся на суперкомпьютере. Разработаны различные методы, которые на следующих этапах будут применены для реализации прототипов компонент блока обеспечения надежности и работоспособности, входящего в состав общего прототипа: - методы формального описания программных моделей функционирования суперкомпьютерных комплексов; - методы построения, анализа и оптимизации программных моделей функционирования суперкомпьютерных комплексов; - механизмы распространения нештатных ситуаций; - методы верификации программных моделей функционирования суперкомпьютерных комплексов; - методы описания нештатных ситуаций; - методы анализа данных о нештатных ситуациях. Определен набор динамических характеристик работы суперкомпьютера, которые влияют на эффективность его работы, а также набор метрик эффективности работы суперкомпьютера в целом и его компонентов. На основе данных наборов на последующих этапах будут реализованы компоненты общего прототипа, связанные с различными аспектами эффективности работы суперкомпьютера. Разработаны требования к хранению данных о состоянии суперкомпьютеров и выполняющихся на них программ. На основе сформулированных требований предложена схема хранения данных, и указаны соображения по ее настройке в зависимости от параметров вычислительного комплекса, данные для которого будут сохраняться. | ||
3 | 1 июля 2015 г.-31 декабря 2015 г. | Теоретические исследования поставленных перед ПНИ задач (2 очереди) |
Результаты этапа: На данном этапе разработаны все компоненты, входящие в состав общего прототипа обеспечения эффективности. В частности, разработаны подсистемы, отвечающие за мониторинг в рамках общего прототипа: - прототип программно-технических решений сбора данных набора датчиков группы 1, - прототип программно-технических решений сбора данных набора датчиков группы 2, - программная подсистема хранения данных о состоянии суперкомпьютеров и выполняющихся на них программ. Разработаны различные компоненты и методы, которые будут применяться в компонентах блока обеспечения надежности и работоспособности, входящего в состав общего прототипа: - прототип программных средств для автоматизированного построения программных моделей суперкомпьютерных комплексов, - методы визуализации программных моделей функционирования суперкомпьютерных комплексов, - методы самотестирования программных средств обеспечения бесперебойного функционирования и уменьшения времени простоя суперкомпьютеров, - программные средства анализа работоспособности компонентов суперкомпьютера, - программные средства для повышения надежности работы программных средств обеспечения бесперебойного функционирования и уменьшения времени простоя суперкомпьютеров, - пользовательский интерфейс программных средств обеспечения бесперебойного функционирования и уменьшения времени простоя суперкомпьютеров. Также разработаны программные подсистемы, предназначенные для представления пользователю полученных данных о состоянии отдельных приложений и всего суперкомпьютера: - программная подсистема визуализации графиков характеристик эффективности работы реальных приложений пользователей, - программная подсистема визуализации динамических характеристик работы суперкомпьютера, - программная подсистема визуализации структуры потока программ, исполняющихся на суперкомпьютере. Разработаны методы получения метрик эффективности работы суперкомпьютера в целом и его компонентов. Разработана программная документация в соответствии с требованиями ТЗ по всем отдельным компонентам и по всем прототипу в целом. Разработана программа и методики экспериментальных исследований прототипа программного комплекса системы обеспечения эффективности функционирования суперкомпьютерных центров. | ||
4 | 1 января 2016 г.-30 июня 2016 г. | Экспериментальные исследования поставленных перед ПНИ задач |
Результаты этапа: На данном этапе завершена программная разработка общего прототипа обеспечения эффективности. В частности, была выполнена интеграция разработанных компонентов и проведена реализация общего прототипа программного комплекса системы обеспечения эффективности функционирования суперкомпьютерных центров. Также на примере суперкомпьютера «Ломоносов» была продемонстрирована возможность применения разработанного прототипа в суперкомпьютерных центрах, предоставляющих доступ к системам петафлопсного уровня производительности. Также была выполнена разработка независимого банка типичных нештатных ситуаций, который предназначен для облегчения процесса создания модели суперкомпьютера при применении разработанного прототипа на новыхвычислительных системах. Были успешно проведены экспериментальные исследования прототипа программного комплекса системы обеспечения эффективности функционирования суперкомпьютерных центров. Данные исследования показали, что разработанный общий прототип полностью удовлетворяет всем требованиям технического задания и календарного плана и обеспечивает всю требуемую функциональность на реальных суперкомпьютерных системах петафлопсного уровня производительности. В результате проведенных исследований был составлен ряд рекомендаций, которые позволяют дополнительно расширить функциональность прототипа, повысить удобство его применения и оптимизировать процесс его работы. По результатам экспериментальных исследований (согласно предложенным рекомендациям и выполненным на их основе доработкам) была проведена корректировка программной документации на прототип программной системы обеспечения эффективности функционирования суперкомпьютерных центров. | ||
5 | 1 июля 2016 г.-31 декабря 2016 г. | Обобщение и оценка результатов исследований |
Результаты этапа: На данном этапе выполнены следующие работы. Разработаны следующие методики оценок: 1) объемов данных, циркулирующих и обрабатываемых разработанным прототипом программной системы обеспечения эффективности функционирования суперкомпьютерных центров в зависимости от масштабов обслуживаемых суперкомпьютеров, включая перспективные установки; 2) пригодности задействованных в разработанном прототипе программной системы обеспечения эффективности функционирования суперкомпьютерных центров подходов на пригодность к использованию в суперкомпьютерных центрах будущего. По разработанным методикам выполнены соответствующие оценки, которые показывают применимость предложенных решений на современных и будущих суперкомпьютерах. Проведено обобщение полученных результатов, а также разработаны рекомендации по практическому применению и коммерциализации результатов ПНИ. В рамках обобщения полученных результатов также проведена оценка научно-технического уровня полученных результатов в сравнении с лучшими достижениями в данной области. Разработан проект технического задания на проведение ОКР по теме «Разработка программного комплекса, предназначенного для обеспечения эффективности суперкомпьютерных центров на основе технологий обработки больших объемов данных и экстремальных вычислений». |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".