Управление разно-структурированными большими данными - учебный курс | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Авторы: Вовченко А.Е., Брюхов Д.О.
Год создания: 2014
Организация: МГУ имени М.В. Ломоносова
Описание: В курсе рассматривается специальный вид стека для параллельных архитектур оперирования данными в аналитических приложениях Big Data. Параллельная архитектура оперирования данными основана на кластере узлов анализа данных, соединяемых быстрой сетью. Свободно распространяемая реализация такого стека (Hadoop) включает Hadoop Distributed File System, и поддержку парадигмы программирования map-reduce. Такие архитектуры поддерживают разно-структурированные данные, которые могут быть представлены в разнообразных моделях данных (структурированных, слабоструктурированных, неструктурированных). В курсе рассматриваются основные идеи и подходы параллельных архитектур оперирования разно-структурированными данными. Рассматриваются вопросы реализации различных алгоритмов в среде map-reduce (таких как матрично-векторное умножение, поддержка SQL-подобных операций и операций реляционной алгебры), сравнения реализации таких операций с традиционными. Map-reduce программирование в курсе изучается применяя собственно язык map-reduce Hadoop’a наряду с декларативными языками над Hadoop’ом (такими как PigLatin, Hive, Jaql (IBM)). Также в курсе рассматривается перспективные методы анализа данных (в дополнении к MapReduce) в середе Hadoop 2.0, основанные на парадигме распределения ресурсов YARN (Yet Another Resource Negotiator). Yarn поддерживает выполнение любых программ, которые могут выполняться параллельно, и позволяет уйти от традиционной парадигмы программирования в Hadoop (map-shuffle-reduce). Это позволяет эффективно программировать сложные задачи, такие как ETL, обработку графов (Giraph), массивно параллельные алгоритмы машинного обучения и моделирования в среде Hadoop. Данная область является широко перспективной и открыта для множества исследований. В комбинации с Hadoop’ом в курсе рассматриваются базы данных NoSQL (такие как HBase). Их использование совместно с Hadoop’ом изучается на примерах приложений. Также в курсе рассматриваются перспективные методы анализа данных (такие как методы машинного обучения) в среде Hadoop’а , на примере реализации алгоритмов на базе YARN и использования библиотек машинного обучения над Hadoop (Mahout). Все практически занятия проводятся на базе Hadoop в составе IBM BigInsights.
Добавил в систему: Брюхов Дмитрий Олегович

	ИСТИНА	Войти в систему Регистрация
	ИСТИНА ИНХС РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИСТИНА ИНХС РАН

Управление разно-структурированными большими даннымиучебный курс