Карлсруэ-Российская инициатива по работе с астрофизическими данными на протяжении их жизненного цикла. - НИР | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Руководитель НИР: Крюков А.П.
Ответственный исполнитель: Дубенская Ю.Ю.
Участники НИР: Коростелева Е.Е., Постников Е.Б.
Подразделение: Научно-исследовательский институт ядерной физики имени Д.В. Скобельцына
Срок исполнения: 1 января 2018 г. - 31 декабря 2020 г.
Номер договора (контракта, соглашения): 18-41-06003
Номер ЦИТИС: AAAA-A17-117101620011-7
Тип: Фундаментальная
Приоритетное направление научных исследований: Развитие информационных технологий и телекоммуникаций
ПН России: Информационно-телекоммуникационные системы
Направление технологического прорыва России: Стратегические информационные технологии
Рубрики ГРНТИ:
- 50.53.15 Автоматизация процессов проведения научных экспериментов
- 50.53.17 Автоматизация сбора и обработки данных научного эксперимента
Ключевые слова: большие данные, проблемно-ориентированные системы, астрофизика частиц., интеллектуальный анализ данных, распределенные системы, системы хранения
storage system, problem-oriented system, big data, astroparticle physics., distributed system
Описание:
Настоящий проект направлен на создание системы, которая позволит разработать методику сбора, обработки и анализа данных с астрофизических экспериментов на примере данных экспериментов TAIGA [http://taiga-experiment.info/] и KASCADE [https://web.ikp.kit.edu/KASCADE/] в модели открытого доступа – open science. Новизна предлагаемого подхода состоит в разработке комплексного решения, одновременно включающего: * разработку и адаптацию методов и алгоритмов распределенного хранения данных с организацией общего метакаталога, что обеспечит единое информационное пространство распределенного хранилища; * разработку и адаптацию алгоритмов обмена данными, а также передачу данных пользователям одновременно из разных хранилищ, что существенно сократит время загрузки данных; * разработку новых методов распознавания типа частиц и их характеристик на основе современных методов машинного обучения, которые будут доступны пользователям on-line; * адаптация и развертывание прототипа системы анализа больших данных на основе системы KCDC и наполнение ее данными экспериментов KASCADE и TAIGA для отработки технологии поддержки работы с данными на всем протяжении их жизненного цикла. Мы также предполагаем развернуть на базе платформы HubZero [www.hubzero.org] площадку для образовательных целей для подготовки студентов и аспирантов в области астрофизики частиц.
Abstract:
The present project will strive to develop an open science system to be able to collect, store, and analyze astrophysical data having the TAIGA [http://taiga-experiment.info] and KASCADE [https://web.ikp.kit.edu/KASCADE] experiments as the examples. The novelty of the proposed approach can be seen in developing integrated solutions including: * development and adaptation of distributed data storage algorithms and techniques with a common meta-catalog to provide a common information space of the distributed repository; * development and adaptation of data transmission algorithms as well as simultaneous data transmission from several data repositories thus significantly reducing load time; * development of machine-learning techniques for identifying mass groups of particles and their properties in a fully remote access mode; * installation of the KCDC-based prototype system of Big Data analysis and exporting the experimental data from KASKADE and TAIGA for testing technology of data life cycle management. We will also create an educational system on the HubZero platform [https://hubzero.org] dedicated to astroparticle physics.
Планируемые результаты:
В ходе выполнения проекта будут получены следующие основные результаты: • Будет создана распределенная система сбора и обработки больших астрофизических данных на базе существующей системы KCDC. Предлагаемая идея для достижения поставленной цели есть концепция так называемой «лаборатории жизненного цикла данных». • Будет разработано и внедрено программное обеспечение для интеллектуального анализа больших данных в астрофизике частиц. • Будет разработана методика проверки надежности научных результатов, основанная на совокупном анализе данных многих типов и из многих источников. • Будет обеспечен открытый доступ к данным для научной общественности.
Научный задел:
Участники проекта имеют большой опыт как теоретических исследований и практических разработок в области распределенных систем вычислений и обработки данных на основе грид- и веб-технологий. В частности, участники коллектива исполнителей являлись участниками крупнейших международных проектов в области грид-технологий European Grid Initiative (EGI,http://www.egi.eu). Участниками проекта был выполнен цикл работ по разработке веб-сервисов на основе архитектурного стиля REST и созданию прикладных веб-платформ для предоставления ПО как сервисов (SaaS). Участники проекта из России имеют опыт анализа больших данных различных экспериментов в МГУ. Многомерные методы оценки энергии, реконструкции энергетического спектра и классификации частиц были разработаны и опробованы участниками для космического эксперимента NUCLEON Russian на спутнике космических лучей.Разработанный участниками метод обработки данных TAIGA предлагает гибридный алгоритм для одновременной обработки данных из различных установок TAIGA (TAIGA-HiSCORE и TAIGA-IACT). У участников есть опыт разработки и внедрения концепции удаленной лаборатории.Ряд участников имеет многолетний опыт в исследованиях и разработке методов и инструментов для анализа данных, облачных вычислений, неструктурированного управления данными, анализа и обработки изображений, многокритериального отбора, интеллектуальных агентов для распределенных вычислений и интеллектуальной обработки пространственных данных,математического и информационного моделирования.
Основные результаты:
За время выполнения проекта были получены следующие основные результаты. 1. Была разработана архитектура распределенной системы хранения экспериментальных данных для астрофизики частиц, основными особенностями которой являются: - сохранение исторически сложившихся в экспериментальных группах методов хранения и политик доступа; - предоставление данных пользователям системы прозрачным способом; - возможность выборки данных как на уровне отдельных файлов, так и на уровне отдельных событий в соответствии с критериями, заданными пользователями. Для организации сбора метаданных были подготовлены формальные спецификации файловых форматов бинарных данных экспериментов KASCADE и TAIGA, разработаны программные библиотеки разбора первичных (сырых) данных на основных языках программирования, включая C ++, JAVA и PYTHON. Проведена верификация данных установок экспериментов KASCADE и TAIGA. В качестве базы модели выбрана микросервисная архитектура, когда модули, входящие в состав хранилища, представляют из себя совокупность взаимодействующих друг с другом микросервисов. Главными чертами разработанной модели следующие. 1. Доступ к данным на локальных хранилищах осуществляется в режиме только чтение через специальные модули-адаптеры, обеспечивающие унифицированный API. 2. Все запросы со стороны пользователей на поиск данных производится по метаданным на специальном сервере — каталоге метаданных. 3. Запросы к данным могут включать фильтры как на уровне целых файлов, так и на уровне отдельных записей (событий). При этом данные, которые будут предоставлены пользователю сохраняют структуру директорий и названия файлов. 4. Передача файлов на компьютер пользователя производится только при фактическом обращении к данным, что обеспечивает значительное снижение сетевого трафика. 5. Обеспечена возможность как работы с требуемыми данными удаленно, использую файловую систему CERNVM-FS, так и скачивание данных на компьютер пользователя для работы в режиме офлайн без подключения к интернету. Эти особенности позволо удовлетворить следующим требованиям, принятым в качестве базовых для разрабатываемой системы хранения: * минимальные дополнительные требования к локальным хранилищам, подключаемым к системе; * отсутствие существенных изменений при запуске прикладных программ анализа данных на компьютере пользователя с использованием распределенного хранилища, по сравнению с запуском таких программ с прямым доступом к локальному хранилищу; * формирование по запросам пользователей набора данных для анализа не только целыми файлами, но и на уровне отдельных событий; * обеспечение возможности проведения анализа данных по совокупности данных с различных экспериментальных установок (multi messenger analysis). На первом этапе в рамках этой системы в распределенное хранилище интегрируются данные экспериментов TAIGA/TUNKA (http://taiga-experiment.info//) и данные экспермента KASCADE (http://www.ikp.kit.edu/kascade/english/index.php). Были реализованы следующие программные модули: адаптеры к локальным хранилищам, экстракторы метаданных, каталог метаданных, сервис агрегации, а также пользовательский веб-интерфейс. Программный комплекс, получивший название AstroDS, был развернут на стенде в НИИЯФ МГУ. Исследовательский стенд включает два сервера хранения данных, сервер агрегации данных, сервер обработки запросов пользователей на основе метаданных. В качестве географически удаленного сервера хранения данных в систему был сключен сервер KCDC в технологическом институте Карлсруэ. Были проведены комплексные исследования поведения распределенной системы хранения экспериментальных данных, выполнены измерения ее эксплуатационных характеристик. В частности были проведено исследование времени обработки запросов от числа используемых источников данных, сложности запросов, включая запросы, связанные с отбором событий из файлов. Исследования показали, что система AstroDS удовлетворяет требованиям, которые были изначально заложены в проект как в части функциональных возможностей, так и в части производительности. Система обеспечивает значительное ускорение выборки данных по сравнению с традиционно используемым методам, обеспечивает быстрый и унифицированный способ подключения новых источников данных. 2. Были разработаны программы идентификации первичных частиц и определения их параметров с использованием методов глубокого машинного обучения. В качестве первичных данных использовались изображения широких атмосферных ливней, порождаемых космическими лучами и регистрируемых в виде изображений черенковскими телескопами. Метод основан на применении сверточных нейротетей. В качестве входных данных для обучения тестовой CNN использовались изображения, полученные с помощью специализированного Монте-Карло генератора CORSIKA (https://www.ikp.kit.edu/corsika/). Полученные результаты показали, что использование CNN позволяет классифицировать изображения со значением параметра качества распознавания равным Q=2.7-3.0, что гораздо выше значений этого параметра при использовании традиционных методов классификации, основанных на анализе параметров Хилласа (Q=1.7). Результаты по определению энергии первичной частицы, породившей атмосферный ливень, при помощи CNN также показали их высокий потенциал. В отличие от традиционных методов использование CNN позволяет определить значения энергий первичных частиц, породивших ливни, оси которых далеко отстоят от черенковского телескопа, где традиционные методы определения энергии не применимы, поэтому эти события приходилось отбрасывать. Корректная работа CNN с такими событиями особенно важна для телескопа эксперимента TAIGA, который имеет широкую апертуру. Важным направлением исследований в плане 2020 года было дальнейшее совершенствование метода определения параметров широких атмосферных ливней (ШАЛ) методом глубокого машинного обучения. Проведенные исследования, связанные с уточнением структуры сверточных сетей, используемых для этой цели, а также оптимизации методики обучения сети позволило улучшить качество определения энергии ШАЛ на 10-15% по сравнению с предварительными результатами, полученными в 2019 году. Полученный результат лучше на 25-30% точности определения энергии ШАЛ традиционными методами, которая составляет примерно 50%. Предложенная методика была обобщена на случай одновременного использования данных с нескольких черенковских телескопов — стерео режим. Это позволило поднять точность определение энергии ШАЛ до 13-15%, что является существенным улучшением в технике обработки экспериментальных данных в гамма-астрономии.. В ходе выполнения проекта была разработана методика применения глубокого машинного обучения для моделирования изображений с черенковских телескопов в качестве замены традиционного метода, основанного на методе Монте-Карло. В качестве нейронной сети была выбрана GAN-сеть. В рамках экспериментальной проверки предложенной методики и архитектуры сетей при выборке около 25000 событий каждого типа обучение каждой из двух сетей на GPU Tesla P100 заняло приблизительно 6 часов. После обучения генерация 4000 событий (любого из типов) занимает около 10 секунд, что более чем в 1000 раз быстрее генерации с помощью программы CORSIKA. Качество изображений, выдаваемых генератором, было проверено с помощью сторонних программных средств на предмет их похожести на гамма-события. Результаты сравнения следующие: 85.7% сгенерированных гамма-событий были признаны гамма-событиями, при этом 4.4% сгенерированных протонных событий были признаны гамма-событиями. Полученные результаты говорят о том, что предложенная методика может с успехом применена для быстрого моделирования широких атмосферных ливней, регистрируемых черенковскими телескопами. Важным залогом успеха полученных результатов явилось использование мощных видео процессоров компании NVIDIA P100 Tesla, которые были приобретены за счет средств гранта. Это позволило не только увеличить масштаб используемых CNN, но и на порядок ускорить обучение — наиболее сложный и длительный этап работы с нейронными сетями. 3. Был создан научно-образовательный и научно-популярный портал, предназначенный для распространения знаний в области астрофизики в рамках модели открытой науки (Open Science). На портале размещены методические материалы (Cosmic Rays, Gamma Rays, Neutrino Astronomy, Gravitational Waves) по каналам регистрации космического излучения сверхвысокой энергии в разделе Science, приведено описание ведущих российских экспериментов в разделе Projects, в разделе Schools/ISAPP-BaikalSchool/Collections представлен курс «Многокомпонентное изучение Вселенной». Образовательная платформа использовалась в ряде учебных мероприятий. Первый опыт применения учебного ресурса astroparticle.online был получен при использовании astroparticle.online на международной байкальской летней школе по физике элементарных частиц и астрофизике для совместной работы. Портал был развернут на базе программной платформы (framework) WordPress разрабатывается интернет-портал (http://astroparticle.online), На данном этапе целевая аудитория портала — это студенты младших курсов, которые выбирают будущую специализацию. В настоящее время кроме традиционных инструментов, таких как новостная лента, видео лекции, на портале апробируются ряд интерактивным методов работы с пользователем. Например, после просмотра видео лекции пользователям предлагается решить несколько задач, чтобы убедиться в усвоении материала. В 2020 году функциональность портала была заметно расширена за счет включения микросервис Astroparticle CNN Client, который предоставляет доступ к онлайн-анализу для выделения гамма-событий на фоне адронных событий с использованием разработанных в рамках данного проекта сверточных нейронных сетей. События, моделированные методом Монте-Карло для телескопов TAIGA-IACT используются как входные данные для этого микросервиса. Особенностью данного микросервиса является то, что пользователь может загрузить собственные изображения и провести идентификацию частиц. Таким образом, предложенный инструмент может использоваться не только в образовательных целях, но и как инструмент для проведения научных исследований для предварительного отбора событий. Важным элементом работ по проекту является внедрение в практику реального эксперимента тех достижений, которые были получены в ходе выполнения проекта. В 2019 году с помощью участников проекта была проведена модификация части программного обеспечения (ПО) эксперимента TAIGA/TUNKA. В обновленном ПО для работы с бинарными файлами данных стали использоваться подготовленные в рамках проекта спецификации бинарных файлов в формате Kaitai Struct и библиотеки на языке C/C++. Такая унификация и систематизация не только упростили работу с данными, но и позволили провести их формальную верификацию. В настоящее время проводятся работы по внедрению метода машинного обучения для классификации и определению параметров первичных частиц по изображениям с черенковских телескопов. Все перечисленные работы выполнялись в тесном контакте с нашими коллегами из Технологического института г. Карлсруэ. В частности, в процессе обсуждения с ними была выработана концепция распределенного хранилища, в том числе вопросы интеграции в систему локальных хранилищ, которые хранят данные не в файлах, а в виде записи событий в реляционных базах данных. Примером такого хранилища является система KASCADE Cosmic Ray Data Centre (KCDC). Другим примером плодотворного сотрудничества является развитие упомянутого выше портала astroparticle.online, который является совместной разработкой. Это нашло отражение в совместных работах (см., например, https://pos.sissa.it/358/284) Полученные результаты были доложены на четырех международных и всероссийских конференциях, опубликованы в 18 работах в изданиях, индексируемых международными системами WoS и Scopus, получены свидетельства о государственной регистрации программ.
Добавил в систему: Боос Елена Георгиевна

Источник финансирования НИР

грант РНФ

Этапы НИР

#	Сроки	Название
1	1 января 2018 г.-31 декабря 2018 г.	Карлсруэ-Российская инициатива по работе с астрофизическими данными на протяжении их жизненного цикла.
Результаты этапа: На первом этапе (2018 г.) получены следующие результаты: - аналитический обзор современной научно-технической литературы; - список критериев функционирования системы анализа больших данных для астрофизических экспериментов - список основных количественных параметров системы анализа; - формат описания данных (мета данные) для экспериментов KASCADE и TAIGA; - алгоритм агрегации данный экспериментов KASCADE и TAIGA; - предварительная версия алгоритма идентификации типа частиц в эксперименте TAIGA на основе метода машинного обучения; - архитектура системы хранения, обработки и анализа больших данных астрофизических экспериментов; - исследовательский стенд в НИИЯФ МГУ для отработки разрабатываемых методов и алгоритмов; - платформу HubZero для наполнения ее образовательными материалами в области астрофизики частиц. - публикация 3 статей с результатами рабо по проекту; - промежуточный отчет.
2	1 января 2019 г.-31 декабря 2019 г.	Карлсруэ-Российская инициатива по работе с астрофизическими данными на протяжении их жизненного цикла.
Результаты этапа: Работы выполнялись в соответствии с планом работ на 2019 год. В соответствии с этим планом основное внимание было уделено программной реализации распределенного хранилища экспериментальных данных экспериментов TAIGA/TUNKA на основе модели такого хранилища, разработанной на первом году проекта. В качестве базы модели выбрана микросервисная архитектура, когда модули, входящие в состав хранилища, представляют из себя совокупность взаимодействующих друг с другом микросервисов. Главные черты этой модели следующие. 1. Доступ к данным на локальных хранилищах осуществляется в режиме "только чтение" через специальные модули-адаптеры, обеспечивающие унифицированный API. Такой подход с одной стороны обеспечивает сохранность экспериментальных данных, а с другой стороны, достаточен для выполнения анализа на удаленных ресурсах. 2. Все запросы со стороны пользователей на поиск данных производятся по метаданным на специальном сервере — каталоге метаданных. Таким образом, на локальных хранилищах не производится поиск, что существенно снижает нагрузку на них и упрощает сопровождение системы. 3. Запросы к данным могут включать фильтры как на уровне целых файлов, так и на уровне отдельных записей (событий). При этом данные, которые будут предоставлены пользователю, сохраняют структуру директорий и названия файлов. 4. Передача файлов на компьютер пользователя производится только при фактическом обращении к данным, что обеспечивает значительное снижение сетевого трафика. 5. Обеспечена возможность как работы с требуемыми данными удаленно, используя файловую систему CERNVM-FS, так и скачивание данных на компьютер пользователя для работы в режиме офлайн без подключения к интернету.
3	1 января 2020 г.-31 декабря 2020 г.	Карлсруэ-Российская инициатива по работе с астрофизическими данными на протяжении их жизненного цикла.
Результаты этапа: В ходе выполнения работ, предусмотренных в 2020 году, были проведены комплексные исследования поведения распределенной системы хранения экспериментальных данных, выполнены измерения ее эксплуатационных характеристик. Исследования проводились на испытательном стенде в составе двух серверов хранения данных (Stor1, Stor2), одного сервера хранения на основе базы данных (KCDC), сервиса метадата каталога (MDC) и сервиса агрегации данных (Aggregator). Доступ к системе осуществляется с помощью браузера с рабочего места пользователя. В процессе проведения исследования системы изучалось ее поведение в различных условиях эксплуатации. В частности были проведено исследование времени обработки запросов от числа используемых источников данных, сложности запросов, включая запросы, связанные с отбором событий из файлов. Исследования показали, что система AstroDS удовлетворяет требованиям, которые были изначально заложены в проект как в части функциональных возможностей, так и в части производительности. Система обеспечивает значительное ускорение выборки данных по сравнению с традиционно используемым методам, обеспечивает быстрый и унифицированный способ подключения новых источников данных. На основе материала, полученного в ходе исследований, была проведена оценка качества работы AstroDS и оптимизация системы. В частности, в ходе проведенной оптимизации работы системы была заметно увеличена скорость ответа сервиса каталога мета данных на запросы, в которые включены критерии отбора на уровне событий. Ряд выполненных оптимизаций, выполненных по результатам проведенных исследований, позволило увеличить скорость обработки некоторых типов запросов в 2-3 раза. В целом, на типичной смеси запросов ускорение составило 35-40%. Проведенные исследования функционирования системы AstroDS подтвердили, что принципы и заложенные при ее реализации методы позволили создать высокоэффективную облачную систему хранения данных для малых и средних экспериментов в области астрофизики частиц. Особе внимание было уделено вопросу взаимодействия с хранилищами данных, построенных на базах данных. Базовая идея заключается в том, что так как метаинформация о событиях храниться непосредственно на самих хранилищах, а не на сервисе матаданных. Для этого был спроектирован и реализован унифицированный API, обеспечивающий интеграцию таких хранилищ в систему. Другим важным направлением исследований в плане 2020 года было дальнейшее совершенствование метода определения параметров широких атмосферных ливней (ШАЛ) методом глубокого машинного обучения. Проведенные исследования, связанные с уточнением структуры сверточных сетей, используемых для этой цели, а также оптимизации методики обучения сети позволило улучшить качество определения энергии ШАЛ на 10-15% по сравнению с предварительными результатами, полученными в 2019 году. Полученный результат лучше на 25-30% точности определения энергии ШАЛ традиционными методами, которая составляет примерно 50%. Предложенная методика была обобщена на случай одновременного использования данных с нескольких черенковских телескопов — стерео режим. Это позволило поднять точность определение энергии ШАЛ до 13-15%, что является существенным улучшением в технике обработки экспериментальных данных в гамма-астрономии.. В ходе выполнения проекта в 2020 году была разработана методика применения глубокого машинного обучения для моделирования изображений с черенковских телескопов в качестве замены традиционного метода, основанного на методе Монте-Карло. В качестве нейронной сети была выбрана GAN-сеть. В рамках экспериментальной проверки предложенной методики и архитектуры сетей при выборке около 25000 событий каждого типа обучение каждой из двух сетей на GPU Tesla P100 заняло приблизительно 6 часов. После обучения генерация 4000 событий (любого из типов) занимает около 10 секунд, что более чем в 1000 раз быстрее генерации с помощью программы CORSIKA. Изображения, выдаваемых генератором, который был натренирован в соответствии с разработанной методикой, с помощью сторонних программных средств была произведена оценка сгенерированных изображений на предмет их похожести на гамма-события. Результаты сравнения следующие: 85.7% сгенерированных гамма-событий были признаны гамма-событиями, при этом 4.4% сгенерированных протонных событий были признаны гамма-событиями. Одним из направлений работ в текущем году являлось дальнейшее развитие научно-популярного портала в области астрофизики частиц. Кроме текущей поддержки портала, обновления и расширения материалов, представленных на нем, основное внимание было уделено по интеграции интерактивного приложения (микросервиса) для идентификации типа первичных частиц методом машинного обучения. Микросервис Astroparticle CNN Client реализован в виде интерактивного сервиса, который предоставляет доступ к онлайн-анализу для выделения гамма-событий на фоне адронных событий с использованием разработанных в рамках данного проекта сверточных нейронных сетей. События, моделированные методом Монте-Карло для телескопов TAIGA-IACT используются как входные данные для этого микросервиса. Полученные результаты были доложены на IV международном совещании «Data life cycle in Physics», прошедшего в июне этого года, а также на международной конференции «Computer Simulation in Physics and beyond». Также результаты были опубликованы в 4 статьях в изданиях, индексируемых международными системами WoS и Scopus, получено 1 свидетельство о государственной регистрации программы.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".

	ИСТИНА	Войти в систему Регистрация
	ИСТИНА ИНХС РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИСТИНА ИНХС РАН

Карлсруэ-Российская инициатива по работе с астрофизическими данными на протяжении их жизненного цикла.НИР

Karlsruhe-Russian Astroparticle Data Life Cycle Initiative

Источник финансирования НИР

Этапы НИР

Прикрепленные к НИР результаты