Разработка принципов и алгоритмов управления метаданными провенанса больших научных данных с использованием блокчейн-технологии - НИР | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Руководитель НИР: Демичев А.П.
Ответственный исполнитель: Крюков А.П.
Участники НИР: Дубенская Ю.Ю., Поляков С.П., Федотова (Петрова) Е.Ю.
Подразделение: Лаборатория аналитических вычислений в физике высоких энергий
Срок исполнения: 23 апреля 2018 г. - 31 декабря 2020 г.
Номер договора (контракта, соглашения): 18-11-00075
Номер ЦИТИС: АААА-А18-118042890065-2
Тип: Разработка
Приоритетное направление научных исследований: Развитие информационных технологий и телекоммуникаций
ПН России: Информационно-телекоммуникационные системы
Направление технологического прорыва России: Стратегические информационные технологии
Критическая технология России: Технологии и программное обеспечение распределенных и высокопроизводительных вычислительных систем
Рубрики ГРНТИ:
- 50.53.17 Автоматизация сбора и обработки данных научного эксперимента
Ключевые слова: метаданные, модель открытого доступа к данным, блокчейн-технология, жизненный цикл обработки данных, системы управления метаданными, рабочий процесс, провенанс данных
workflow, metadata management systems, data life cycle, blockchain technology, data provenance, open data access model, metadata
Описание:
Научной проблемой, на решение которой направлен данный проект, является разработка принципов и алгоритмов формирования, хранения и управления метаданными провенанса данных, порождаемых крупными научными экспериментами. Хотя за последние годы был осуществлен целый ряд проектов по созданию систем для поддержки и управления метаданными, включая провенанс данных, но все реализованные решения являются централизованными, что плохо соответствует случаю использования распределенной среды, модели открытого доступа и возможности использования метаданных организационно несвязанными или слабо связанными сообществами исследователей. С другой стороны, в последнее время большую популярность — благодаря наличию ряда важных преимуществ — приобрели распределенные реестры на основе технологии блокчейна. Поэтому является весьма актуальным исследование возможности и пригодности использования блокчейн-технологий для построения системы управления метаданными провенанса в распределенной и открытой среде. Конкретной задачей проекта и является разработка технологического решения на основе блокчейн-технологий, архитектуры и алгоритмов работы системы управления метаданными провенанса для распределенных систем обработки и анализа больших научных данных в модели открытого доступа к данным.
Abstract:
In modern large systems that generate big data, including scientific data, there is no general approach to the formation and management of metadata. This makes it difficult to effectively and correctly organize a work with data throughout their life cycle, including data processing and analysis, to exchange data between different research groups and organizations, to integrate data and to ensure that analysis programs always comply with all characteristics of the data being processed, including methods, conditions and also the characteristics of the instruments with which they were obtained. In the field of scientific research, the growing number, productivity of computing resources and storage capacity combined with unified remote access mechanisms over the Internet through middleware allow scientists to perform a workflow for the processing and analysis of scientific data (the so-called open data access model - open science). Existing systems for automated execution of workflows can generate terabytes of data. Both data sources and these workflow systems must provide extensive and informative metadata about the data that is necessary for automated sampling of the required data, as well as for the correct maintenance of the data life cycle. Thus, metadata describing data, provide context and are vital for the accurate interpretation and use of data by both humans and machines. Given this dependence, it is logical to conclude that innovation in the field of metadata should be developed on a par with advances in the field of big data. Analysis of scientific and technical literature shows a backlog in research in the field of metadata and their management systems. One of the important types of metadata is provenance metadata (other English terms for such metadata: lineage, pedigree). Provenance from the point of view of computer science is a meta-information related to the history of obtaining data, starting from the source. Metadata of this type is designed to track the steps at which data were obtained, their origin, their proper storage, reproduction, for interpretation and confirmation of the scientific results obtained on their basis. Thus, provenance metadata (PMD) are important for organizing a correct research workflow to obtain reliable results. The need for a PMD is especially essential when big data are jointly processed by several research teams, which is a very common practice in many scientific areas. This requires a wide and intensive exchange of data and programs for their processing and analysis, covering long periods of time, during which both the data sources and the algorithms for their processing can be modified. In recent years, some efforts have been made to meet metadata requirements for big data, but existing partial solutions lack the important functionality that is characteristic for metadata in conventional DBMSs and is necessary for the successful processing of big data by many teams over an extended period of time. The need for careful management, in particular timely updating, of metadata is related to the possible evolution of data sources and processing algorithms. Changes in the format of sensor data, accuracy and quality can occur for many reasons. In particular, due to changes in sensor design, refinements in calibration, or even physical displacement (for example, in astro- or geodata cases) without direct notification to all data processing participants. This can give rise to catastrophic errors in the processing and analysis of data. Similar consequences can have a "hidden" evolution of data processing and analysis algorithms, as well as code modification, change of versions and releases of corresponding computer programs. A vivid example of large installations for which this is very important is the Large Hadron Collider (LHC, CERN, Geneva), the time of active work of which and, correspondingly, the generation of big scientific data, is of the order of ten years, and the processing time of the data will be at least twice as much. Without detailed and correct provenance metadata, comparing the results obtained with an interval, for example, of a few years, will be simply impossible. This project is directed to the development of principles and algorithms for the formation, storage and management of the provenance metadata generated by large scientific experiments. Although a number of projects have been implemented in recent years to create systems for the support and management of metadata, including the provenance of data, but all implemented solutions are centralized, which is poorly suited to the case of using a distributed environment, an open access model and the possibility of using metadata by organizationally unrelated or loosely coupled communities researchers. On the other hand, in recent years distributed registries on the basis of blockchain technology have acquired great popularity because they have a number of important advantages. Therefore, it seems very relevant to study the feasibility and suitability of the use of blockchain technologies for building a control system for provenance metadata in a distributed and open environment. The specific task of the project is the development of a technological solution based on the blockchain technologies for architecture and algorithms of the provenance metadata management system of distributed systems for processing and analyzing big scientific data in the open data access model. Proceeding from the foregoing, it can be argued that both the general scientific problem for the solution of which the project is directed, and the specific scientific task of the project are important and very relevant. The scientific novelty of the proposed project is that for the first time it is proposed to use a distributed registry based on blockchain technology for creating a metadata management system in a distributed computing environment for the processing and analysis of scientific data. Although most recently, similar proposals have appeared in the scientific literature, but they are still being initial phase and, most importantly, are intended for another field of application, in which, in particular, it is extremely important to preserve the privacy of metadata. In this regard, the relevant decisions are very heavy and resource consuming. This does not allow them to be used to solve the main scientific problem to which the proposed project is directed - the development of principles and algorithms for the formation, storage and management of provenance metadata of data generated by large scientific experiments in distributed environments and processed in distributed computing systems (DCS) within the framework of workflows. To solve this problem, it is proposed to use a new approach to the creation of distributed registries on the basis of blockchain technology, with the abandonment of the excessive resource-intensive process of block mining.
Планируемые результаты:
Благодаря использованию новых подходов, в результате реализации проекта будут разработаны принципы и алгоритмы работы отказоустойчивой, безопасной, надежной с точки зрения сохранности и защищенности записей от случайных или намеренных искажений распределенной системы управления метаданными провенанса данных. Это, в свою очередь, существенно повысит качество и надежность научных результатов, получаемых на основе обработки и анализа больших научных данных в распределенной компьютерной среде. Достижимость решения поставленной задачи и возможность получения запланированных результатов обусловлена значительным научный заделом, имеющимся у научного коллектива заявителей, высоким уровнем развития исследований в области блокчейн-технологий и распределенных систем обработки и анализа больших данных, а также некоторых примеров систем управления метаданными провенанса данных с существенно более узкой функциональностью, чем предлагаемые в настоящем проекте, но которые могут служить отправной точкой для решения поставленных в данной заявке задач, а также служить в качестве референтных систем. Таким образом, принципы и методы построения распределенной системы управления метаданными провенанса больших данных, предлагаемые в данной заявке, будут основаны как на оригинальных решениях, так и на интеграции и адаптации решений, использованных при создании существующих систем контроля метаданных и блокчейн-реестров. Особую значимость ожидаемые результаты данного проекта приобретают в связи с активным развитием такого направления современной науки , как модель открытого доступа к данным (open science), которое становится особенно важным в эпоху больших данных, когда полный анализ полученных результатов экспериментов часто бывает не под силу одному коллективу.
Научный задел:
Предпосылкой успешного выполнения предлагаемых работ является существующий высокий уровень владения участниками проекта облачными технологиями и технологиями распределенного хранения данных на географически отделенных ресурсах хранения, а также их уникальный опыт в развертывании и использовании распределенных систем вычислений и обработки данных на основе грид- и веб-технологий. В частности, участники коллектива исполнителей являлись участниками крупнейших международных проектов в области грид-технологий EU DataGRID (http://marianne.in2p3.fr/datagrid), “Enabling Grids for E-sciencE” (EGEE, http://eu-egee.org) и European Grid Initiative (EGI, http://www.egi.eu). В настоящее время члены группы участвует в проекте Европейского центра ядерных исследований (ЦЕРН, Женева, Швейцария) "The Worlwide LHC Computing Grid Project" (WLCG, http://www.cern.ch/WLCG). Проект WLCG направлен на использование грида для решения задач физики высоких энергий, и является пионерской областью науки, в которой используются и апробируются грид-технологии.
Основные результаты:
При осуществлении крупномасштабных научных, инженерно-технических или бизнес-проектов, связанных с хранением и обработкой больших объемов данных, а также привлечением участников из разных административных доменов возникает вопрос выбора типа системы хранения и обработки данных. Возможными вариантами являются (1) полностью централизованная система; (2) полностью децентрализованная система на основе одноранговых P2P-сетей; (3) система, представляющая собой некоторый промежуточный между этими экстремальными случаями вариант. Полностью централизованное решение подразумевает создание крупных и очень дорогих специализированных центров обработки данных. На начальном этапе реализации проекта очень непросто как найти достаточное финансирование для создания такого центра, так и заранее оценить необходимую емкость хранилища на достаточно длительный период времени. Помимо этого возникает проблема организационной, а возможно и национальной принадлежности такого центра при участии в проекте различных организаций и стран. Аренда существующих центров обработки данных также весьма затруднительна в силу высоких требований к объему и времени использования ресурсов в случае крупных проектов и во многих случаях нежелательна по соображениям безопасности и конфиденциальности, поскольку контроль доступа к данным полностью принадлежит администраторам центра обработки данных. Подход, основанный на парадигме одноранговых (P2P) сетей хранения данных, полностью противоположен централизованному подходу (см., например, обзор Kryukov A. and Demichev A. "Decentralized Data Storages: Technologies of Construction", Programming and Computer Software, 44 (5) (2018) 303-315 и ссылки в нем). В этом случае службы хранения данных равномерно распределяются между всеми участниками сети, что обеспечивает естественную балансировку нагрузки, отсутствие узких мест и точек отказа. Специальные механизмы кодирования, фрагментации и распространения информации по узлам могут обеспечить конфиденциальность и надежность системы даже в случае выхода из строя некоторых узлов хранения. Более того, ряд подходов развиваемых в рамках P2P-парадигмы могут оказаться весьма плодотворны с точки зрения дальнейшего глобального развития веб-сети (Web 3.0), но для реализации распределенного хранилища в рамках определенного крупного проекта или консорциума организаций такое решение вряд ли является оптимальным. Это связано с тем, что существенной проблемой этого подхода при его использовании для конкретного и ограниченного временными рамками проекта является обеспечение стабильного пула пиров, то есть поставщиков ресурсов хранения, особенно на начальном этапе развития такой сети. Другими словами, прежде чем такое хранилище на основе P2P-сети сможет стабильно работать, оно потребует от организаторов значительных технических, организационных и временных затрат в отсутствие гарантии результата, то есть работоспособной сети с достаточной емкостью хранилища. Поэтому во многих случаях наилучшим решением может быть решение промежуточного типа, при котором участники крупного проекта объединяют свои ресурсы локальных хранилищ и сервисов обработки данных в единый распределенный пул, а при необходимости дополнительно арендуют ресурсы от сторонних поставщиков. Для определенности такие решения называются коллаборативными распределенными компьютерными системами (collaborative distributed computing systems; CDCS), чтобы отличать их об более общего понятия любых распределенных компьютерных систем (DCS). Ярким примером такого подхода в научной области является глобальная грид-инфраструктура для Большого адронного коллайдера Worldwide LHC Computing Grid (WLCG; http://wlcg-public.web.cern.ch.) и распределенные вычисления для экспериментов в астрофизике с использованием источников экспериментальных данных разного типа.. В случае этого промежуточного подхода возникает проблема объединения всех локальных хранилищ и данных в них в единую систему хранения, а также обеспечения реализации политик взаимного доступа к данным участвующих сторон. Это подразумевает существование методов децентрализованного управления правами доступа к данным, обеспечения консенсуса между сторонами, участвующими в совместном использовании данных, о содержании и порядке операций с данными. Помимо этого необходима надежная и неизменная запись истории совершенных операций, то есть метаданных провенанса (PMD). Последние необходимы для согласованности хранения и использования данных в распределенной среде, а также для рассмотрения и разрешения возможных конфликтов участников проекта между собой или с поставщиками ресурсов хранения. Конфликты могут быть связаны с вопросами приоритета при получении результатов обработки данных, использовании результатов, нарушении прав доступа и т. д. Другими словами, необходимо предоставить инструменты для поддержки реализации бизнес-процессов хранения и совместного использования данных в распределенной среде и при наличии административно не связанных или слабо связанных групп пользователей и в условиях частичного или полного отсутствия доверия между ними. В результате работы по данному проекту предложен новый подход к решению этих проблем и построению соответствующей системы управления метаданными провенанса и правами доступа к данным, основанный на интеграции блокчейн-технологии, смарт-контрактов и управления данными на основе метаданных. Разработаны принципы и алгоритмы работы такой системы, названной ProvHL (Provenance HyperLedger), которая является отказоустойчивой, безопасной, и надежной с точки зрения контроля доступа к данным, а также сохранности и защищенности записей метаданных провенанса от случайных или намеренных искажений. Был также разработан новый метод делегирования прав пользователя или сервиса другому сервису в распределенных вычислительных системах. Реализация предложенного подхода основана на эксклюзивном (permissioned) блокчейне, на блокчейн-платформе Hyperledger Fabric (HLF; https://www.hyperledger.org) и смарт-контрактах для поддержки базовых операций с файлами (выгрузка, загрузка, копирование в другое хранилище, обработка данных веб-сервисами и т. п.) и с каталогами (создание, удаление, вывод содержимого). При этом метаданные провенанса записываются в блокчейн заранее, и система управления данными обращается к блокчейну и выполняет записанные там транзакции (управление данными на основе метаданных). Таким образом, метаданные провенанса играют одну из центральных ролей в предлагаемом дизайне CDCS. Основными принципами, на которых основана система ProvHL, разработанная в рамках проекта, являются: 1. использование распределенного реестра на основе эксклюзивных (permissioned) блокчейнов; 2. использование смарт-контрактов; 3. управление данными в CDCS на основе метаданных; a) метаданные провенанса записываются в блокчейн заранее, и система управления данными обращается к блокчейну и выполняет записанные там транзакции; 4. децентрализованное управление правами доступа к данным; 5. функционирование распределенного хранилища на основе консенсуса между представителями сторон, участвующих в совместном использовании данных. Отказоустойчивость, безопасность и надежность системы ProvHL обеспечиваются тем, что благодаря использованию указанного подхода и принципов построения удается полностью избежать централизованных сервисов для управления CDCS, которые используются в других аналогичных системах и являются потенциальными точками отказа, злонамеренного вторжения и/или бутылочным горлом. Использование эксклюзивных (permissioned) блокчейнов соответствует существу задачи так как при осуществлении бизнес-процессов, связанных с использованием CDCS, существуют естественным образом выделенные представители сторон, участвующих в процессе, а также это позволяет избежать существенных недостатков, присущих публичным (permissionless) блокчейнам, в частности низкой скорости и ресурсоемкости обработки транзакций и формирования блоков. Концептуальными отличиями ProvHL от других решений для систем хранения данных, основанных на эксклюзивных (permissioned) блокчейнах, являются: 1. система обеспечивает взаимодействие в среде CDCS пользователей (клиентов) и серверов компьютерных ресурсов хранения и обработки данных благодаря тому, что операции с файлами в рамках CDCS состоят из набора транзакций, часть из которых инициируется клиентами, а другая часть – серверами; a) при этом операции определяются как самостоятельные активы, история эволюции состояний которых записывается в блокчейн, что обеспечивает более детальную фиксацию эволюции системы в целом; b) очень важно, что такое определение операций существенно снижает риск расхождения между реальной историей CDCS и ее записью в блокчейне (то есть, обеспечивает по крайней мере частичное решение проблемы оракула); 2. ProvHL позволяет определить группы пользователей (как самостоятельный актив), управлять членством пользователей в них, отслеживать и записывать историю их появления и эволюции; a) наличие групп позволяет осуществлять хорошо структурированное управление правами доступа к ресурсам в рамках CDCS; 3. в отличие от других подходов, ProvHL позволяет обеспечить надежное и гибкое делегирование прав пользователя или сервиса другому сервису без использования центральных служебных сервисов; a) надежность делегирования обеспечивается отсутствием уязвимых центральных системных служб, неизменяемой структурой данных блокчейна, а также тем, что данное делегирование осуществляется независимо для каждой конкретной операции (в отличие от прокси-сертифииката, позволяющего на период его действия выполнять любые операции от имени сущности, делегировавшей прокси-сертификат); b) гибкость обусловлена тем, что смарт-контракт, который контролирует делегирование, может включать любые условия, при которых такое делегирование допускается; 4. ProvHL обеспечивает работу с виртуальными (оверлейными) директориями в рамках всей CDCS, определенными поверх директорий в локальных хранилищах; a) тем самым фактически заложена основа для создания полноценной распределенной файловой системы (с семантикой, основанной на неизменяемости файлов) на основе блокчейн технологии; 5. с помощью высокоуровневого языка запросов клиентское ПО системы ProvHL позволяет пользователям удобным образом получать из блокчейна информацию об истории и текущем состоянии всех активов (файлов с данными, операций, групп пользователей). Развернутый испытательный полигон для разработанной системы ProvHL подтвердил правильность положенных в основу ее разработки принципов, структуры, модели бизнес-процессов в CDCS и алгоритмов работы, а также продемонстрировал удовлетворительные показатели производительности. Новый подход, разработанный в рамках отчетного проекта, и полученные результаты обеспечивают надежную и безопасной систему управления метаданными происхождения, правами доступа и операциями с данными в совместной распределенной вычислительной среде с частичным или полным отсутствием доверия между группами пользователей, а также с переменным количеством подключенных ресурсов и с практически неограниченной возможностью увеличения объема хранимых данных и метаданных. Внедрение системы ProvHL в реально работающие распределенные компьютерные системы позволит значительно повысить качество и надежность результатов, полученных на основе обработки и анализа данных в такой распределенной компьютерной среде. Все задачи проекта успешно решены. Результаты были представлены на международных конференциях и опубликованы в ряде статей.
Добавил в систему: Боос Елена Георгиевна

Источник финансирования НИР

грант РНФ

Этапы НИР

#	Сроки	Название
1	23 апреля 2018 г.-31 декабря 2018 г.	Разработка принципов и алгоритмов управления метаданными провенанса больших научных данных с использованием блокчейн-технологии
Результаты этапа: В конце первого года получены следующие результаты: - выводы по результатам анализа современной научно-технической литературы; - общие критерии функционирования систем управления метаданными провенанса (СУМД-П); - список основных количественных параметров оценки работы СУМД-П; - выбор класса блокчейнов, удовлетворяющих критериям функционирования СУМД-П; - методы, модель и формат записи МДП в распределенный блокчейн-реестр; - методы и алгоритмы формирования блоков в рамках выбранного класса блокчейнов; - методы и алгоритмы осуществления запросов к распределенному реестру МДП на основе блокчейн-технологии; - аргументированный выбор/разработка языка запросов на выборки метаданных; - методы и алгоритмы проверки отсутствия искажений записей в распределенном реестре; - методы построения инфраструктуры безопасности для СУМД-П; - публикация 2 статей, отражающих промежуточные результаты работы по проекту; - промежуточный отчет по проекту.
2	1 января 2019 г.-31 декабря 2019 г.	Разработка принципов и алгоритмов управления метаданными провенанса больших научных данных с использованием блокчейн-технологии
Результаты этапа: НВ настоящее время реализация крупных научных, инженерных и бизнес-проектов связана, как правило, с необходимостью хранить и обрабатывать большие объемы данных. Это приводит к разработке новых, более экономичных и надежных, архитектурных решений и принципов работы информационных систем, в том числе систем хранения. Экстремальными вариантами архитектурных решений для таких систем являются полностью централизованные хранилища и полностью децентрализованные (на основе одноранговых P2P-сетей) хранилища. Однако, во многих случаях такие решения оказываются неприемлемыми, например, из-за их высокой стоимости или низкой надежности, а оптимальным является промежуточное между такими экстремальными вариантами решение. Для его осуществления организации - участники крупного проекта - объединяют свои локальные ресурсы в единый распределенный пул и, при необходимости, дополнительно арендуют ресурсы облачного хранилища, возможно, от нескольких поставщиков. Особенно выгодным с экономической и технической точек зрения, это решение может быть в том случае, когда необходимо хранить большие объемы данных в течение ограниченного периода реализации проекта и в ситуации, когда проект объединяет многих организационно несвязанных участников. В общем случае такой распределенный пул образует динамически меняющуюся среду (по мере необходимости могут подключаться новые хранилища или отключаться ранее входившие в пул), а локальные хранилища, входящие в пул, могут иметь разные системы управления данными. Задача заключается в том, чтобы объединить все эти хранилища и данные в них в единую систему в динамически меняющейся среде, а также обеспечить реализацию взаимных политик доступа к данным участвующих сторон. Например, владелец данных (пользователь, создавший эти данные или организация, которой они принадлежат) должен иметь возможность управлять правами доступа к ним для других пользователей. Другим примером является способность облачного хранилища предоставлять доступ к данным, хранящимся на нем, только пользователям из организаций, которые заплатили за предоставление услуг хранения. Это подразумевает наличие децентрализованных методов как для управления доступом к данным в такой динамично изменяющейся среде, так и для обеспечения надежной, неизменной записи истории совершенных транзакций, то есть метаданных провенанса (МДП), для разбора и разрешения возможных конфликтов между участниками проекта, а также с владельцами хранилищ. Конфликты могут быть связаны с вопросами приоритета при получении результатов обработки данных, использованием результатов, нарушением прав доступа и т. п. Другими словами, необходимо обеспечить инструментарий для поддержки осуществления бизнес-процессов хранения и обмена данными в распределенной среде и при наличии административно несвязанных или слабо связанных организаций, участвующих в совместных проектах, или просто обменивающихся данными на определенных условиях. Прежде всего, для этого требуется надежная неизменяемая запись истории совершенных операций, то есть реестр метаданных провенанса, устойчивый к случайным или намеренным изменениям, а также метод обеспечения консенсуса среди участников бизнес-процесса о содержании и порядке транзакций с данными. Следует отметить, что, хотя в последние годы был реализован ряд проектов по созданию систем хранения и управления метаданными, включая провенанс данных, подавляющее большинство реализованных решений централизовано, что плохо подходит для использования организационно несвязанными исследовательскими сообществами в распределенной динамически меняющейся среде. С другой стороны, в последние годы распределенные реестры, основанные на блокчейн-технологии, стали очень популярными в различных прикладных областях из-за ряда важных преимуществ. Совсем недавно на основе блокчейнов появились разработки для систем управления МДП. Однако они предназначены для работы с одним хранилищем, не решают проблему обеспечения бизнес-процессов для обмена данными между административно несвязанными организациями и управления доступом к данным. Основной сценарий использования предлагаемой системы предполагает, что для совместной реализации некоторого проекта создается виртуальная организация (ВО). ВО включает несколько реальных организаций, которые, в свою очередь, включают поставщиков данных, обработчиков данных и пользователей, связанных с ними. Предполагается, что для реализации такого проекта требуется использование распределенного хранилища данных. Это распределенное хранилище может быть создано путем аренды нескольких облачных хранилищ, а также с помощью интеграции собственных ресурсов организаций, которые формируют ВО. Таким образом, аппаратная и программная база бизнес-среды в этом случае формируется набором хранилищ (возможно разных типов, например, облачных хранилищ, файловых серверов, хранилищ на магнитной ленте и т. д.), каждое из которых может управляться его собственной системой управления данными (СУД). Вообще говоря, могут сосуществовать несколько ВО; хранилища, с которыми они взаимодействуют, могут образовывать частично перекрывающиеся множества. В дополнение к задаче записи неизменной истории работы с данными в распределенной среде хранения, ставится задача обеспечения распределенного управления правами доступа к данным. Естественным решением для создания распределенного неизменяемого реестра для записей МДП является использование блокчейн-технологии. Последняя гарантирует, что записи не были включены в реестр задним числом, и что записи в реестре не были изменены. Важным вопросом является то, как обеспечить валидность цепочки блоков с записями транзакций в случае реестра МДП. Использование самого популярного метода - доказательства работы (proof-of-work; PoW) на основе майнинга является весьма ресурсоемким и плохо подходит для систем управления метаданными провенанса данных. Действительно, вычисления, которые выполняются с целью доказательства работы, не служат никакой полезной цели, и это является принципиальной особенностью. Поэтому, если это возможно, лучше отказаться от этого способа. Пытаясь решить эту проблему, сообщество исследователей в этой области разработало алгоритмы консенсуса, которые не требуют "работы". Выбор алгоритма сильно зависит от способа доступа к обработке транзакций. С этой точки зрения, блокчейны классифицируются следующим образом: инклюзивные (публичные) блокчейны, в которых нет ограничений на личность обработчиков транзакций; эксклюзивные блокчейны, в которых обработка транзакций выполняется только определенными участниками блокчейн-сети. Публичные блокчейны более известны, поскольку на них основаны сети криптовалют. В отличие от публичных блокчейнов, в системах, основанных на эксклюзивных блокчейнах, встроенные цифровые деньги обычно не используются. В публичных блокчейнах встроенные цифровые деньги необходимы для обеспечения вознаграждения за обработку транзакций. Эксклюзивные блокчейны могут формировать более контролируемую и предсказуемую среду, чем публичные блокчейны, и не требуют вычислений, связанных с алгоритмами PoW. В распределенной среде хранения локальные системы управления данными, владельцы данных, представители реальных организаций, участвующих в проекте, и другие аналогичные указанным участники совместного проекта могут выступать в качестве уполномоченных сторон, которые создают и подписывают блоки. Чтобы злонамеренно изменить транзакцию, подтвержденную всеми авторизованными сторонами в распределенной среде хранения, злоумышленник должен получить доступ ко всем секретным ключам обработчиков блоков. Это очень маловероятно, и, таким образом, этот подход обеспечивает высокую степень защиты распределенного реестра. Именно этот подход к построению реестров метаданных используется в нашей системе управления МДП. Чтобы реализовать это решение на практике, удобно использовать существующие блокчейн-платформы. Анализ существующих платформ показывает, что требуемое решение для системы управления МДП наиболее естественным образом может быть реализовано на базе блокчейн-платформы Hyperledger Fabric (HLF; www.hyperledger.org) совместно с Hyperledger Composer (hyperledger.github.io/composer). Последний представляет собой набор инструментов для упрощенного использования блокчейна. Далее мы будем называть эти два компонента HLF&C-платформой. Для описания бизнес-процесса в рамках HLF&C-платформы используется ряд концепций, основными из которых являются активы, участники, транзакции и события. Активы - это материальные или интеллектуальные ресурсы, услуги или собственность, записи о которых хранятся в блокчейне. Активы должны иметь уникальный идентификатор, но они также могут содержать любые свойства, определенные для них. Участники являются членами бизнес-сети, которые могут владеть активами и делать запросы на транзакции. Они также могут иметь свойства, если это необходимо. Транзакции являются механизмом взаимодействия участников с активами. Сообщения о событиях могут быть отправлены обработчиками транзакций для информирования внешних компонентов об изменениях в блокчейне. Очень важно, что HLF&C-платформа обеспечивает работу смарт-контрактов (называемых чейнкодами), что позволяет организовать бизнес-процесс совместного использования ресурсов хранения участниками проекта, находящимися в разных административных доменах. Разрабатываемая в данном проекте на базе HLF&C-платформы система управления метаданными провенанса, названная ProvHL (Provenance HyperLedger), обеспечивает осуществление бизнес-процессов совместного использования ресурсов хранения. При этом с точки зрения организации бизнесс-процессов возможны два подхода. В первом подходе системы управления данными (СУД) управляют данными и используют блокчейн просто как распределенный журнал (data driven data management). Во втором подходе метаданные записываются в блокчейн заранее, а СУД обращается к блокчейну и выполняет записанные там транзакции (metadata driven data management). В первом случае функциональность блокчейн-системы очень ограничена, она предоставляет только распределенный реестр, устойчивый к случайным или злонамеренным попыткам модифицировать историю данных в распределенном хранилище. ProvHL позволяет реализовать второй подход, который помимо простого ведения реестра позволяет решить проблему распределенного управления доступом к данным. В нашем случае участниками (в смысле HLF&C-платформы) являются пользователи и администраторы разных уровней и провайдеры хранилищ. Основными активами являются файлы данных. Их свойствами (атрибутами) являются метаданные провенанса, включая имя локального файла в хранилище, идентификатор хранилища, идентификатор создателя, идентификатор владельца файла, тип файла (первичный, вторичный или реплика) и т. д. Другим важным видом активов являются (локальные) хранилища, составляющие распределенную среду. Мы также определили группы пользователей в качестве ресурсов, так как это полезно для управления правами доступа к данным. Наконец, операции с файлами также рассматриваются как активы, поскольку каждая операция фактически состоит из нескольких атомарных транзакций. Основные операции могут быть следующих типов: загрузка нового файла; скачивание файла; копирование файла внутри одного хранилища; удаление файла; копирование файла в другое хранилище; перекачивание файла в другое хранилище. Для каждой операции с данными в блокчейне производится как минимум две записи транзакций: одна соответствует запросу клиента (ClientRequest), а вторая-ответу сервера (ServerResponse). В частности, когда выполняется операция "загрузка нового файла", создание нового актива, то есть файла данных, выполняется только после фактической загрузки файла в хранилище, когда СУД выполняет транзакцию ServerResponse и превращает загруженный файл в полностью валидный актив. Вместе с вышеупомянутым разделением транзакций на клиентскую и серверную части, это делает практически приемлемым уровень соответствия между историей, записанной в блокчейне, и реальной историей данных в распределенном хранилище. Таким образом, в данном проекте благодаря использованию нового подхода, основанного на интеграции технологий блокчейна, смарт-контрактов и управления данными на основе метаданных, разработаны принципы и алгоритмы работы системы, названной ProvHL, которая является отказоустойчивой, безопасной, надежной с точки зрения сохранности и защищенности записей от случайных или намеренных искажений распределенной системой управления метаданными провенанса данных, а также правами доступа к данным в распределенных хранилищах. Исследованы вопросы оптимального выбора типа блокчейна для такой системы, а также выбора блокчейн-платформы. А именно, предложено использовать эксклюзивный (permissioned) тип блокчейна и блокчейн-платформу HyperLedger, на основе которой реализуется система ProvHL. В настоящее время на базе НИИЯФ МГУ создается испытательный стенд, на котором разворачивается прототип ProvHL для реализации разработанных принципов и отработки алгоритмов работы системы. Создание системы ProvHL производственного уровня позволит существенно повысить качество и надежность результатов, получаемых на основе обработки и анализа больших данных в распределенной компьютерной среде.
3	1 января 2020 г.-31 декабря 2020 г.	Разработка принципов и алгоритмов управления метаданными провенанса больших научных данных с использованием блокчейн-технологии
Результаты этапа: Научной проблемой, на решение которой направлен проект, является разработка принципов и алгоритмов формирования, хранения и управления метаданными провенанса для больших данных, порождаемых крупными научными экспериментами. Метаданные провенанса содержат ключевую информацию, которая необходима для определения происхождения, авторства и качества данных, их правильного хранения, корректного воспроизведения при необходимости, а также для интерпретации и подтверждения соответствующих научных результатов. В результате работы по проекту разработан новый подход на основе блокчейн-технологий и смарт-контрактов к созданию отказоустойчивой, безопасной, надежной с точки зрения сохранности и защищенности записей от случайных или намеренных искажений распределенной системы управления метаданными провенанса, а также правами доступа к данным в распределенных хранилищах. Функциональные свойства системы обеспечивают объединение локальных хранилищ и данных в них в единое распределенное хранилище в динамически меняющейся среде, а также обеспечивают реализацию взаимных политик доступа к данным участвующих сторон. Разработаны способы децентрализованного управления как правами доступа к данным в такой динамически меняющейся среде, так и обеспечения надежной неизменяемой записи истории совершенных операций, то есть метаданных провенанса, для разбора и разрешения возможных конфликтов между участниками проекта, а также с владельцами хранилищ. На основе аутентификации и авторизации осуществляется децентрализованный механизм управления правами доступа к данным, то есть правами на выполнение соответствующих транзакций, а также правами на чтение данных, записанных в реестре (блокчейне). Другими словами, функциональные свойства разработанной системы, названной ProvHL (Provenance HyperLedger), обеспечивают полноценный инструментарий для поддержки осуществления бизнес-процессов хранения и обмена научными данными в распределенной среде и при наличии административно несвязанных или слабо связанных организаций, участвующих в совместных проектах, или просто обменивающихся данными на определенных условиях при полном или частичном отсутствии доверия между группами пользователей. Основными характеристиками метода записи метаданных в распределенный блокчейн-реестр являются: работа в рамках концепции эксклюзивных блокчейнов (permissioned blockchains); использование смарт-контрактов для управления транзакциями и организации бизнес-процессов совместного использования ресурсов хранения участниками проекта, находящимися в разных административных доменах; управление правами доступа к тем или иным действиям с метаданными и данными, причем правами доступа могут управлять участники сети в пределах своей компетенции (например, владелец файла может управлять правами доступа к операциям c ним для других участников); использование модульной структуры, позволяющей использовать различные алгоритмы достижения консенсуса между участниками бизнес-процессов в зависимости от потребностей конкретного распределенного хранилища и его пользователей; возможность одновременной независимой работы нескольких виртуальных организаций. В соответствии с общим планом работ, на третьем этапе проекта осуществлена доработка программного комплекса системы управления метаданными провенанса ProvHL, расширяющая его функциональные возможности. В частности, реализована важная для полноценного практического использования распределенных хранилищ возможность осуществления операций с файловыми каталогами (директориями) в распределенном хранилище под управлением ProvHL, управления правами доступа к ним, а также осуществления по запросам записи и чтения метаданных провенанса, относящихся к каталогам. Каталоги определены как активы аналогично файлам данных с соответствующим набором транзакций и событий. При этом рассматривалась возможность использования двух подходов: (1) нисходящий подход, при котором список файлов и каталогов, содержащихся в данном каталоге, является атрибутом последнего; (2) подход "снизу вверх", при котором атрибут файла содержит информацию о каталоге, к которому принадлежит этот файл. Для практической реализации был выбран второй подход, поскольку он существенно более простой и естественный. Действительно, если использовать первый подход, операция с файлом потребует изменения значений атрибутов не только самого файла, но и каталога, в котором он содержится. При втором подходе достаточно изменить только атрибуты файла, включая его размещение в дереве каталогов. Для получения содержимого каталога пользователю достаточно отправить запрос в ProvHL для выбора всех файлов со значением атрибута каталога, равным идентификатору интересующего каталога. Каталоги как активы могут подвергаться операциям, аналогичным операциям с файлами. В результате доработки на третьем этапе функциональных возможностей ProvHL обеспечена возможность управлять посредством ProvHL правами доступа к активам распределенных хранилищ (файлы, каталоги) на уровне групп пользователей распределенного хранилища, осуществлять операции с группами (создание групп, добавление/удаление пользователей и т. п.), а также осуществлять по запросам запись и чтение метаданных провенанса, относящихся к группам. Эта функциональная возможность необходима для хорошо гранулированного, гибкого и удобного управления правами доступа к активам хранилищ. Также обеспечена возможность обработки данных в распределенной системе под управлением ProvHL предустановленными прикладными сервисами. Обработка данных такими веб-сервисами рассматривается как еще один тип операций с файлами, при этом входные и выходные данные для этого типа операций могут состоять из нескольких файлов. Осуществлен переход к модулям реализующим алгоритм консенсуса, устойчивый к сбоям отдельных узлов систем на основе Kafka-кластера. Исследования на третьем этапе показали правильность решений для функциональных возможностей доработанного программного комплекса, а также позволили определить значения количественных параметров работы ProvHL. По результатам сравнительного анализа сделан вывод о том, что разработанная в рамках проекта система ProvHL имеет существенные функциональные, а значит и конкурентные преимущества по сравнению с другими аналогичными системами. Разработаны рекомендации по внедрению системы ProvHL в компьютерные системы коллаборативного типа. Новый подход, разработанный в рамках проекта, и полученные практические результаты обеспечивают надежную и безопасную системы для управления метаданными происхождения, правами доступа и операциями с данными в совместной распределенной вычислительной среде с частичным или полным отсутствием доверия между группами пользователей, а также с переменным количеством подключаемых ресурсов и с практически неограниченной возможностью увеличения объема хранимых данных и метаданных. Создание системы ProvHL позволит значительно улучшить качество и надежность результатов, полученных на основе обработки и анализа данных в такой распределенной компьютерной среде.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".

	ИСТИНА	Войти в систему Регистрация
	ИСТИНА ИНХС РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИСТИНА ИНХС РАН

Разработка принципов и алгоритмов управления метаданными провенанса больших научных данных с использованием блокчейн-технологииНИР

Development of principles and algorithms for managing the provenance metadata for big scientific data with the use of blockchain technology

Источник финансирования НИР

Этапы НИР

Прикрепленные к НИР результаты