ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ИНХС РАН |
||
Современный суперкомпьютер представляет собой сложный комплекс как физических устройств и систем, так и логических процессов, которым подчинена работа суперкомпьютера. О них всех можно получить данные, а на их основе получить новое знание. Например, пользователю нужно знать, сколько процессоро-часов он использовал за последнюю неделю, месяц, год. Системному администратору такая информация важна ещё больше. Какова загрузка суперкомпьютера? Чьи задачи используют процессор и/или ускорители с минимальной эффективностью и какова их доля в общем потоке заданий? Какие организации наиболее активны за последнюю неделю? Сколько процессорного времени было потеряно из-за вычислительных узлов в ремонте? Задачи каких пользователей наиболее активно используют коммуникационную сеть, ускорители, CPU? Масса вопросов, ответы на которые очень хотят видеть как пользователи, так и администраторы, так и руководство вычислительных центров. И на все эти вопросы можно ответить, но для этого необходимо собрать, обработать и проанализировать десятки самых разных источников информации — данные системного мониторинга, аппаратного мониторинга, данные о потоке задач, информацию из баз данных и от различных аналитических средств. Спектр источников данных может быть очень велик, форматы и структура самих данных — крайне разнородны. Цель исследования - разработка подходов и методов для унификации таких источников данных, описания их связей и разработка методов анализа таких потоков данных. Имея такие описания, можно дать ответы на многие вопросы, а также дать в руки администратору или владельцу суперкомпьютера интерактивный инструмент для создания собственных запросов. Сколько задач пользователей из такой-то организации пострадало от сбоев за последний год? Какие пользователи запускают задачи, не использующие GPU-ускорители, на узлах с ускорителями? Даже такие вопросы можно будет сформулировать не техническому специалисту, который по данным из баз данных и журналов выдаст ответ через сутки, а сконструировать на web-страничке и получить ответ в считанные минуты.
The modern supercomputer is a complex complex of both physical devices and systems, and logical processes, to which the work of a supercomputer is subordinated. You can get data about them all, and get new knowledge. For example, a user needs to know how many CPU-hours he used in the last week, month, year. To the system administrator, this information is even more important. What is the loading of a supercomputer? Whose tasks use the processor and/or accelerators with minimal efficiency and what is their share in the total task flow? Which organizations are most active in the last week? How much CPU time was lost due to the computational nodes in the repair? Which users are most actively using the communication network, accelerators, CPU? A lot of questions, answers to which very much want to see both users, and administrators, and the management of computer centers. And all these questions can be answered, but to do this it is necessary to collect, process and analyze dozens of various sources of information - system monitoring data, hardware monitoring, data on tasks flows, information from databases and various analytical tools. The spectrum of data sources can be very large, the formats and structure of the data itself are extremely heterogeneous. The goal of this work is to develop approaches and methods for unifying such data sources, describing their relationships and developing methods for analyzing such data flows. Having such descriptions, it is possible to give answers to many questions, and also to give to the administrator or supercomputer owner an interactive tool for creating your own queries. How many tasks of users from such and such organization suffered from failures for the last year? What users run tasks that do not use GPU accelerators on nodes with accelerators? Even such questions can be formulated not by a technical specialist who, according to data from databases and journals, will give an answer in 24 hours, and design on a web page and receive an answer in a matter of minutes.
- детальный обзор существующих систем сбора, хранения и анализа разнородных данных, - список ключевых характеристик систем сбора, хранения и анализа разнородных данных (данные характеристики ране не были нигде сформулированы), - оценка применимости рассмотренных систем для решения поставленной задачи, - набор ключевых требований к системе сбора, хранения и анализа разнородных данных и критерии её применимости в реальных системах (данные принципы не были нигде сформулированы ранее, данный набор требований предполагается уточнить на следующем этапе), - подходы для реализации технологий интеграции разнородных потоков данных. Полученные результаты должны позволить принять на следующем этапе решение о выборе системы поточной обработки данных как основы для дальнейшей разработки (либо принятии решения о создании новой системы). По уточнённым критериям должны быть в дальнейшем разработаны принципы разработки системы и составлен план разработки прототипа системы. Сформулированные подходы для реализации технологий интеграции разнородных потоков данных будут уточняться на последующих этапах.
Научный коллектив имеет многолетний опыт работы с большими потоками данных, в частности, с потоком данных мониторинга суперкомпьютеров из топ-50 СНГ ("Чебышёв", "Ломоносов", "Ломоносов-2"). Коллектив принимал участие в международном проекте HOPSA в рамках совместного конкурса РФ-ЕС по 7 рамочной программе FP7-ICT-2011-EU-Russia (http://hopsa.parallel.ru/), нацеленной на повышение эффективности использования параллельных вычислительных систем и суперкомпьютеров. В рамках этого проекта, в частности, был предложен подход и инструментарий JobDigest для создания дайджеста задач, выполненных на суперкомпьютере, позволяющем оценить эффективность работы каждой задачи на основе данных системного мониторинга. Члены коллектива неоднократно принимали участие в конкурсах РФФИ и министерства образования.
- подходы для реализации технологий интеграции разнородных потоков данных, - технологии интеграции разнородных потоков данных, - методы описания и анализа интегрированных потоков данных, - прототип системы интеграции разнородных потоков данных для описания и анализа динамики функционирования суперкомпьютерных комплексов.
МГУ им. М.В.Ломоносова | Координатор |
грант РФФИ |
# | Сроки | Название |
1 | 12 апреля 2017 г.-31 декабря 2017 г. | Разработка технологий анализа динамики функционирования суперкомпьютерных комплексов на основе интеграции разнородных потоков данных |
Результаты этапа: Произведён детальный обзор существующих систем сбора, хранения и анализа разнородных данных, составлен список ключевых характеристик систем сбора, хранения и анализа разнородных данных, произведена оценка применимости рассмотренных систем для решения поставленной задачи. Составлен набор ключевых требований к системе сбора, хранения и анализа разнородных данных и критерии её применимости в реальных системах, разработаны подходы для реализации технологий интеграции разнородных потоков данных. | ||
2 | 1 января 2018 г.-31 декабря 2018 г. | Второй этап |
Результаты этапа: Принято решения о создании новой системы. Разработаны принципы разработки системы и составлен план разработки прототипа системы. Уточнены подходы для реализации технологий интеграции разнородных потоков данных. | ||
3 | 5 апреля 2019 г.-12 декабря 2019 г. | Третий этап |
Результаты этапа: Был реализован прототип системы интеграции разнородных потоков данных. В прототипе реализована поддержка нескольких разнородных источников данных, таких как SQL-база данных (PostgresQL/sqlite/и т.п.), текстовые источники, такие как YAML, а также данные из сети по протоколам http/https. Работа прототипа была протестирована на реальных данных и проверена возможность их совместной обработки. Проведено исследование технологий для реализации визуализации данных анализа в рамках прототипа. Рекомендовано использование инструмента Grafana. Проведена апробация разработанной технологии на реальном потоке данных от суперкомпьютера "Ломоносов". |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".