ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ИНХС РАН |
||
Составной частью информационного общества, в котором мы живем, является, так называемая e-Science - синтез науки и информатики, наступающий когда роль информации и ее обработки в научных исследованиях становится превалирующей. Переход на e-стадию (информационную стадию) развития - реальная ситуация, затронувшая на сегодняшний день ряд естественных наук, оперирующих огромными объемами данных: физика (в первую очередь исследование элементарных частиц и физика высоких энергий), геофизика и геология, астрономия, биология, экономика, медицина. В этих науках происходит процесс лавинного поступления информации, в первую очередь связанный с успехами в технологии создания приемных устройств. В современных крупных экспериментах (включая и численное моделирование) анализ терабайтов и даже петабайтов научных данных становится повседневной задачей. Помимо количества данных, увеличилось их разнообразие и требования к их доступности - наука вступила в эпоху Больших Данных, когда подручных средств не хватает для эффективной научной работы и требуется разработка специализированных решений. Помимо этих общепринятых проблем, наука выдвигает дополнительные вызовы информационным технологиям, связанные с особенностью научных данных и их использованием, а именно, необходимость "вечного" хранения "сырых" данных, версионности научных (обработанных) данных, знания происхождение (истории) данных, работа с "неточными" данными. Наука уже давно использует СУБД для организации хранения и доступа к данным, однако существующие системы были разработаны для другой архитектуры информационных систем, для других объемов данных и для других запросов. Из-за недостатков существующих СУБД, большинство научных проектов, в которых встает задача анализа больших объемов данных, осуществляют обработку и анализ исходных данных вне системы управления базами данных, что затрудняет решение вышеобозначенных задач. Современные суперкомпьютеры-вычислители не рассчитаны на работу с большими данными в режиме реального времени, они более ориентированы на пакетный режим выполнения задач, требующих в основном вычислительных мощностей. Новые СУБД для науки должны использовать возможности архитектуры масштабируемых хранилищ и распределенных вычислителей для обеспечения полноценной поддержки полного цикла работы с данными - хранение, обработка, анализ и обмен данными. Обмен данными подразумевает не только физический доступ, но и доступность программного обеспечения.