Аннотация:На сегодняшний день редко используются одиночные методы классификации и
регрессии и всё большую популярность получают методы, объединяющие несколько
алгоритмов. Объединение алгоритмов в так называемый ансамбль даёт большую
точность, чем его составляющие, так как ошибки различных базовых алгоритмов
будут взаимно компенсироваться.
Одним из популярнейших методов составления ансамблей является бустинг. В
бустинге базовые модели строятся последовательно, причём каждая следующая мо-
дель пытается исправить ошибки предыдущих моделей. Прогноз бустинга строится с
помощью суммы базовых моделей. В качестве базовых моделей обычно используют
неглубокие решающие деревья.
Недостатком стандартных решающих деревьев является то, что они рассматри-
вают разбиения параллельно одной из осей координат, так как в каждом узле про-
исходит проверка условия: больше или меньше заданный признак определенного по-
рогового значения. Например, если реальная граница между классами
линейная, то придется сделать достаточно большое количество разбиений, чтобы
построить хорошую модель. В этом случае помогают деревья с линейными разбие-
ниями общего вида, то есть в каждом узле проверяется условие <w,x> < w0. С одной
стороны, это снизит количество разбиений и глубину дерева и позволит более гибко
описывать классы объектов. С другой стороны, гибкость вносит большой вклад в
переобучение.
В данной работе будет изучено, какое влияние окажет такой вид деревьев в кон-
тексте бустинга, а именно улучшится ли прогноз по сравнению с обычными деревья-
ми. Будет предложено четыре вида построения деревьев с линейными разбиениями:
• RidgeCART – в узле дерева решается задача Ridge-регрессии.
• Continuously Optimized Oblique Tree (CO2) – недифференцируемая функция
потерь, которая оптимизируется в обычных деревьях, заменяется на диффе-
ренцируемую верхнюю оценку.
• Householder CART (HHCART) – CART с преобразованием Хаусхолдера.
• Random CART – CART со случайными поворотами.
Также будет рассмотрено их применение к градиентному бустингу и будут про-
ведены эксперименты, которые покажут улучшится ли качество прогноза.