Оптимизация параметров решающих деревьев с линейными разделяющими правилами в алгоритме бустинга - дипломная работа | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Научный руководитель: Китов В.В.
Автор: Таскынов Ануар Гульденбекович
Тип: Бакалавр
Организация, в которой проходила защита: МГУ имени М.В. Ломоносова
Год защиты: 2017
Аннотация: На сегодняшний день редко используются одиночные методы классификации и регрессии и всё большую популярность получают методы, объединяющие несколько алгоритмов. Объединение алгоритмов в так называемый ансамбль даёт большую точность, чем его составляющие, так как ошибки различных базовых алгоритмов будут взаимно компенсироваться. Одним из популярнейших методов составления ансамблей является бустинг. В бустинге базовые модели строятся последовательно, причём каждая следующая мо- дель пытается исправить ошибки предыдущих моделей. Прогноз бустинга строится с помощью суммы базовых моделей. В качестве базовых моделей обычно используют неглубокие решающие деревья. Недостатком стандартных решающих деревьев является то, что они рассматри- вают разбиения параллельно одной из осей координат, так как в каждом узле про- исходит проверка условия: больше или меньше заданный признак определенного по- рогового значения. Например, если реальная граница между классами линейная, то придется сделать достаточно большое количество разбиений, чтобы построить хорошую модель. В этом случае помогают деревья с линейными разбие- ниями общего вида, то есть в каждом узле проверяется условие <w,x> < w0. С одной стороны, это снизит количество разбиений и глубину дерева и позволит более гибко описывать классы объектов. С другой стороны, гибкость вносит большой вклад в переобучение. В данной работе будет изучено, какое влияние окажет такой вид деревьев в кон- тексте бустинга, а именно улучшится ли прогноз по сравнению с обычными деревья- ми. Будет предложено четыре вида построения деревьев с линейными разбиениями: • RidgeCART – в узле дерева решается задача Ridge-регрессии. • Continuously Optimized Oblique Tree (CO2) – недифференцируемая функция потерь, которая оптимизируется в обычных деревьях, заменяется на диффе- ренцируемую верхнюю оценку. • Householder CART (HHCART) – CART с преобразованием Хаусхолдера. • Random CART – CART со случайными поворотами. Также будет рассмотрено их применение к градиентному бустингу и будут про- ведены эксперименты, которые покажут улучшится ли качество прогноза.
Добавил в систему: Китов Виктор Владимирович

	ИСТИНА	Войти в систему Регистрация
	ИСТИНА ИНХС РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИСТИНА ИНХС РАН

Оптимизация параметров решающих деревьев с линейными разделяющими правилами в алгоритме бустингадипломная работа (Бакалавр)