ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ИНХС РАН |
||
В последние годы наиболее востребованным направлением исследований в прикладной математике является анализ данных (data mining). Прежде всего, это решение задач - классификации (например, автоматическая рубрикация текстов, определение наличия неисправности по показаниям датчиков и т.п.), - регрессии и прогнозирования (определение вероятности возвращения кредита конкретным клиентом банка, прогнозирование появления рёбер в графах соцсетей и т.п.), - рекомендации (предложение <<потенциально полезных>> товаров клиенту интернет-магазина, выделение целевой аудитории для рассылки рекламы и т.п.). Также есть широкий класс задач <<обучения без учителя>> (unsupervised learning), которые редко представляют самостоятельную ценность, но часто возникают в рамках решения перечисленных выше задач (например, кластеризация, восстановление плотности, сокращение размерности и т.п.) В интернете появляются различные проекты, которые предлагают исследователям данные в обмен на эффективные алгоритмы их анализа. Подобным примером может служить сайт www.kaggle.com, на котором зарегистрировано более 100000 специалистов по машинному обучению (machine learning) и статистике, и проведены десятки соревнований с солидными денежными призами компаниями Facebook, dunnhumby, GE, Merk, EMC и другими. Популяризация анализа данных и потребность в эффективных алгоритмах у крупных компаний привела к тому, что исследователям уже не достаточно строить алгоритмы <<приемлемого качества>>. Каждую конкретную задачу необходимо решать в сжатые сроки с очень высоким (выше чем у конкурентов) качеством. При этом задачи имеют свою специфику: - специфику данных (специальные форматы файлов, контекстная информация), - объём данных (теперь уже обучающая выборка не умещается в ОЗУ), - требования к решению (специфические функционалы качества, интерпретация). В докладе речь пойдёт именно о таких методах решения прикладных задач: быстрых и эффективных. Доклад построен на авторском опыте решения прикладных задач \cite{Dyakonov1}--\cite{Dyakonov2}, как в рамках сотрудничества с различными компаниями (ozon.ru, algomost.ru), так и в рамках участия в крупных Международных соревнованиях по анализу данных (платформы kaggle.com, tunedit.org). Предлагается общая методика решения задач -- когда алгоритм решения ищется в специальном виде -- в виде линейной комбинации специальных <<функций деформаций>> от простых алгоритмов (здесь под алгоритмом понимается в первую очередь отображение). Такая методика была опробована на решении различных задач регрессии и классификации. Предлагаются методы повышения качества стандартных алгоритмов, таких как случайные леса (random forests), с помощью специальных приёмов формирования признаковых пространств. Предлагается применение методов SVD-разложения для понижения размерности и регуляризации на промежуточных этапах решения задач классификации и регресии, а также для эффективного кодирования факторных признаков. Предлагаются методы сведения задач одного типа к задачам другого, например, рекомендации к классификации, и наоборот. Также в докладе делается обзор современных программных средств для анализа данных. Подчеркнём, что речь не идёт о технологиях big data (и соответствующих проблемах) или способах визуализации данных, а о типичных современных прикладных задачах: их примерах, способах решения, методах повышения качества решения.