Современные аналитические методы теории вероятностей и математической статистики, ориентированные на обработку больших массивов данных высокой размерности НИР

Соисполнители НИР

МГУ имени М.В. Ломоносова Координатор

Источник финансирования НИР

грант РНФ

Этапы НИР

# Сроки Название
1 17 июня 2014 г.-31 декабря 2014 г. Современные аналитические методы теории вероятностей и математической статистики, ориентированные на обработку больших массивов данных высокой размерности
Результаты этапа: 1. Доказаны предельные теоремы в схеме нестационарных случайных блужданий, в которых предельное распределение принадлежит классу многомерных обобщенных гиперболических и многомерных обобщенных дисперсионных гамма-распределений. В частности, доказаны функциональные предельные теоремы, описывающие сходимость обобщенных процессов Кокса со скачками, имеющими конечные дисперсии, к процессам Леви с несимметричными одномерными распределениями. В частности, получены критерии сходимости в пространстве Скорохода случайных блужданий, порожденных обобщенными процессами Кокса, к обобщенным гиперболическим процессам Леви и обобщенным дисперсионным гамма-процессам Леви, к примеру, к процессам Леви типа подчиненных винеровских процессов с субординаторами, имеющими распределение Вейбулла—Гнеденко с параметром, меньшим единицы. Случай малых значений параметра распределения Вейбулла—Гнеденко представляет особый интерес, поскольку такие распределения занимают промежуточное место между распределениями с экспоненциальным убыванием хвостов (показательное распределение, гамма-распределение) и «тяжелохвостыми» распределениями со степенным убыванием хвостов типа Ципфа—Парето. Конечномерные распределения подчиненных винеровских процессов являются дисперсионно-сдвиговыми смесями нормальных законов, в которых смешивание производится по единственному параметру, одновременно определяющему и сдвиг, и масштаб. Упомянутые выше критерии сходимости заключаются в том, что сходимость в пространстве Скорохода случайного блуждания, порожденного обобщенным процессом Кокса, к подчиненному винеровскому процессу имеет место тогда и только тогда, когда нормированные накопленные интенсивности потока скачков сходятся к соответствующему субординатору. Также получены многомерные обобщения указанных результатов (также см. п. 4). 2. Построены новые квази-непараметрические сеточные методы разделения смесей вероятностных распределений, и усовершенствованные алгоритмы ЕМ-типа, ориентированные на обработку неполных данных, и исследованы их некоторые свойства. В частности, предложены усовершенствованные комбинированные алгоритмы ЕМ-типа и исследованы асимптотические свойства соответствующих статистических процедур. С целью снижения размерности параметрического пространства рассмотрены модели, основанные на дисперсионно-сдвиговых смесях нормальных законов. Показано, что сеточные методы разделения смесей довольно эффективны не только при разделении конечных смесей нормальных законов, но и при разделении произвольных дисперсионно-сдвиговых смесей нормальных законов. В ходе выполнения проекта предложен двухэтапный метод, и обсуждены некоторые аспекты его применения. На первом этапе на положительной полупрямой выделяется основная часть носителя смешивающего распределения, то есть ограниченный интервал, вероятность которого, вычисленная в соответствии со смешивающим распределением, практически равна единице. На этот интервал накидывается конечная сетка, содержащая, возможно, очень много известных узлов. Искомое обобщенное гиперболическое распределение приближается конечной смесью нормальных законов, в которой атомы смешивающего распределения сосредоточены на указанной сетке. В такой смеси неизвестными являются только веса компонент. Для их оценивания используется алгоритм ЕМ-типа, который сходится к глобальному максимуму сеточной функции правдоподобия, поскольку последняя оказывается вогнутой. Доказано, что если узлы сетки различны, неотрицательны и известны, то описанный итерационный процесс является монотонным, то есть каждая его итерация не уменьшает целевую сеточную функцию правдоподобия. На втором этапе применяется стандартный метод подгонки параметрического смешивающего распределения к эмпирическим данным типа гистограмм. Здесь хорошие результаты показал метод поиска наилучшего распределения в смысле минимизации расстояния Кульбака-Лейблера, который в рассматриваемом случае эквивалентен максимизации правдоподобия полученной гистограммы в соответствующих классах смешивающих распределений. При использовании указанного двухэтапного метода исключительную важность приобретает правильный выбор сетки на первом этапе. В ходе выполнения проекта этот вопрос рассмотрен подробно и предложены и обоснованы как теоретические, так и практические рекомендации по выбору верхней границы сетки, используемой на первом этапе. 3. Исследованы адекватность и точность смешанных моделей с помощью построения и уточнения оценок скорости сходимости в соответствующих предельных теоремах. Исследована точность нормальных моделей с помощью построения новых и уточнения известных оценок скорости сходимости в центральной предельной теореме на основе новых точных моментных неравенств и оценок для характеристических функций. А именно, А) доказаны оценки для характеристических функций, имеющие нетрадиционную более эффективную по сравнению с линейной нелинейную зависимость от используемых моментов и более естественную для рассматриваемых объектов тригонометрическую зависимость от аргумента. Эти оценки были основаны, в частности, на улучшении формулы Тейлора для комплексной экспоненты, на точных оценках близости преобразования смещения квадрата в L1-метрике к исходному распределению, на решении экстремальной задачи максимизации третьего алгебраического момента при фиксированных значениях первого алгебраического, второго и третьего абсолютного моментов. Б) Используя свойства характеристических функций и производящих функций моментов найдена характеризация нормального распределения в терминах выборочной дисперсии и показано, что выборка имеет нормальное распределение тогда и только тогда, когда выборочная дисперсия имеет распределение хи-квадрат. 4. Исследован многомерный сложный процесс Леви, который представляет из себя многомерное броуновское движение со случайным временем, моделируемое с помощью одностороннего устойчивого движения Леви. А именно, А) показано, что построенный процесс является самоподобным; Б) найдено представление для характеристической функции конечномерных распределений этого процесса; В) используя полученное представление характеристической функции, показано, что распределения процесса в общем случае не являются устойчивыми; Г) показано, что если управляемый процесс есть многомерное броуновское движение, то построенный процесс имеет устойчивые распределения; Д) рассмотрены некоторые применения указанных моделей в теории коллективного риска. 5. Исследованы асимптотические свойства оценок риска пороговой обработки сигналов и изображений при наличии коррелированного стационарного шума. Описаны условия состоятельности и асимптотической нормальности указанных оценок риска. А именно, А) Рассмотрена модель сигналов/изображений с коррелированным гауссовским шумом. Исследован характер зависимости эмпирических коэффициентов вейвлет-разложения функции сигнала/изображения и получены оценки скорости убывания корреляционной функции этих коэффициентов. Б) В модели с коррелированным шумом показано, что при определенных условиях, накладываемых на гладкость функции сигнала/изображения и вейвлет-функцию, а также уровень зависимости шумов, несмещенная оценка риска является состоятельной и асимптотически нормальной. В) Рассмотрена задача обращения линейных однородных операторов в модели с коррелированным шумом. Показано, что при выполнении определенных условий, связывающих гладкость функции сигнала/изображения, уровень зависимости шумов и показатель однородности оператора, несмещенная оценка риска методов, основанных на вейвлет-разложении, является состоятельной и асимптотически нормальной. 6.1. Получены вычислимые оценки для остаточного члена в асимптотических разложениях типа Корниша-Фишера для квантилей статистик, основанных на наблюдениях, размерность которых сравнима или существенно превосходит объем выборки, а также получены результаты типа центральной предельной теоремы для обобщенных случайных графов со случайными весами в узлах графа. 6.2. Изучены асимптотически оптимальные байесовские критерии и вычислены их дефекты, а также исследованы их некоторые асимптотические свойства. В частности, рассмотрены свойства дефектов некоторых статистических оценок, в том числе построенных по выборкам случайного объема. Построены асимптотические разложения дефектов некоторых статистик. Также рассмотрена задача сравнения асимптотических дефектов статистик, построенных по выборкам неслучайного и случайного объема, имеющего пуассоновское распределение с параметром, совпадающим с неслучайным объемом. Показано, что такая рандомизация объема выборки уменьшает дефект статистики. 7. Получено обобщение полукругового закона Вигнера для случайных матриц на матрицы с неодинаково распределенными элементами. 8. Решена обратная задача локализации функциональных областей мозга человека. Разработаны новые статистические методы анализа экспериментальных данных, полученных в условиях, когда фон в значительной мере превышает полезный сигнал. В частности, А) Решена обратная задача по локализации источника активности мозга в однодипольной модели. Б) Разработан метод локализации источников активности мозга в многодипольной модели и указаны условия его применимости. В) Исследованы свойства случайных процессов: оконной дисперсии миограммы и ее приращений. Найдены законы распределения компонент этих процессов. Г) Модифицирован алгоритм нахождения опорных точек оконной дисперсии миограмм, в результате чего повышена точность локализации источников активности мозга. Проведена предобработка сигнала на наличие эпох-выбросов. Введена переменная величина - ширина окна, адаптированная к виду сигнала. Д) Найдены особенности шумовой компоненты сигнала миограммы на интервалах покоя. Сигнал разделен на две разные компоненты
2 1 января 2015 г.-31 декабря 2015 г. Современные аналитические методы теории вероятностей и математической статистики, ориентированные на обработку больших массивов данных высокой размерности
Результаты этапа: Проект направлен на создание новых и уточнения существующих аналитических методов вероятностно-статистического анализа больших массивов данных высокой размерности. Основное внимание уделено ситуации, в которых анализируемые данные получены в условиях стохастической неопределенности, предполагающих хотя бы теоретическую возможность неограниченного воспроизведения событий, генерирующих данные. В таком случае эффективность интеллектуального анализа данных может быть существенно повышена за счет алгоритмического учета статистических закономерностей, наблюдаемых в массивах данных, с помощью вероятностных моделей и статистических методов, позволяющих использовать асимптотические аппроксимации для наблюдаемых закономерностей. При этом естественно возникают задачи, перечисленные в списке работ, запланированных на 2015 год. Этот список включает задачи отыскания условий, гарантирующих возможность использования тех или иных асимптотических аппроксимаций (задачи 6-11), задачи изучения свойств, в том числе характеризационных, вероятностных моделей, позволяющих гарантировать наличие нужных свойств, если известны другие, возможно, проще проверяемые (задачи 2, 3, 5), задачи изучения точности асимптотических аппроксимаций, позволяющие делать выводы о степени адекватности используемых моделей (задачи 1, 4), задачи разработки новых эффективных методов и алгоритмов статистического анализа больших массивов данных (задача 11). В ходе выполнения проекта в 2015 году все поставленные задачи решены в полном объеме. А именно: 1. Построена оптимальная оценка близости интегралов от гладких (дважды дифференцируемых и с липшицевой второй производной) комплекснозначных функций между распределением стандартизованной суммы Sn из n независимых одинаково распределенных случайных величин с фиксированным значением нормированного третьего абсолютного центрального момента r и нормированным симметричными биномиальным распределением Вi(n) с параметром n, т.е. оценка обобщенной дзета-метрики третьего порядка между распределением Snи Bi(n). В качестве следствий этого результата получены а) моментные оценки близости характеристической функции к характеристической функции симметричного биномиального распределения, и б) оптимальные моментные оценки дзета-метрики между распределениями нормированных сумм независимых одинаково распределенных случайных величин и нормальным законом. 2. Получен ряд новых неравенств для моментов сумм независимых случайных величин. Неравенства обращаются в равенства только для одинаково распределенных величин. Таким образом, выполнение равенств является новой характеризацией однородности нескольких выборок. На основе полученных характеризаций предложены и исследованы новые непараметрические критерии проверки однородности двух и более выборок. Проведено сравнение этих критериев с критериями, основанными на эмпирической характеристической функции. 3. Получены новые характеризацииэкспоненциальности распределения в классе распределений с монотонной интенсивностью отказов. Более глубоко исследованы конкретные семейства таких распределений: гамма-распределения, распределения Вейбулла и обобщенные показательные распределения. Получены неравенства для математического ожидания минимума и максимума n независимых случайных величин, имеющих распределение с монотонно возрастающией или с монотонно убывающей интенсивностью отказов. 4. Изучена связь между ошибкой измерения, погрешностью округления и точностью восстановления измеряемой величины при усреднении многократно проводимых измерений. Показано, что при одном и том же уровне округления, можно достигнуть большей точности восстановления путем дополнительного зашумления измеряемой величины. 5. Доказана теорема, обобщающая теорему Долеан-Дадэ: показано, что классы натуральных случайных процессов с интегрируемой вариацией и предсказуемые случайные процессы с интегрируемой вариацией совпадают. Доказана теорема о том, что непрерывный справа локальный мартингал является непрерывным тогда и только тогда, когда он является предсказуемым случайным процессом. Доказана теорема о том, что непрерывный справа натуральный мартингал с интегрируемой вариацией и непрерывный справа локальный мартингал с локально интегрируемой вариацией постоянны. Получено упрощенное доказательство теоремы о разложении Дуба-Мейера, основанное на представлении субмартингала в виде условного математического ожидания от возрастающего случайного процесса, и как следствие, получено разложение субмартингала в виде суммы непрерывного справа мартингала и предсказуемого возрастающего случайного процесса. Доказана теорема, обобщающая теорему о разложении Дуба-Мейера регулярных справа локальных субмартингалов: показано, что непрерывный справа локальный субмартингал допускает представление в виде суммы локального мартингала и предсказуемого возрастающего случайного процесса с локально интегрируемой вариацией. Доказано, что разложение единственно с точностью до неразличимости. Доказана теорема о существовании стохастического дифференциального уравнения. С помощью теории обыкновенных дифференциальных уравнений найдены явные решения линейных обратных стохастических дифференциальных уравнений. Доказана общая теорема о перестановочности операций условного математического ожидания и интегрирования, обобщающая все известные частные случаи. Доказана теорема о разложении Дуба-Мейера методами обратных стохастических дифференциальных уравнений. 6. Доказан аналог усиленного закона больших чисел для оценки риска при пороговой обработке вейвлет-коэффициентов разложения функции сигнала. Исследованы асимптотические свойства оценки риска в задаче реконструкции томографических изображений методом вейвлет-вейглет-разложения при наличии коррелированного стационарного шума. Показано, что при определенных условиях, несмещенная оценка риска является состоятельной и асимптотически нормальной. Рассмотрена задача обращения линейных однородных операторов в модели с коррелированным шумом. Показано, что при использовании метода вейглет-вейвлет-разложения несмещенная оценка риска является состоятельной и асимптотически нормальной. 7. Центральным и основополагающимрезультатом теории случайных матриц является полукруговой законВигнера, который утверждает, что относительное число собственных значений симметричной случайной матрицы, попавших в интервал фиксированнойдлины, при росте размерности к бесконечности стремится к интегралупо соответствующему интервалу от плотности полукругового закона. Во всех предшествующих работах предполагалось, чтоэлементы матрицы независимы и имеют равные дисперсии. В ходе выполнения проекта в 2015 г. удалось отказаться от этих условий иполучить достаточные условия сходимости, эквивалентные достаточнымусловиям в центральной предельной теореме для сумм случайныхвеличин.В рамках проекта рассмотрен ансамбль матриц, у которых элементы в симметричныхотносительно главной диагонали позициях коррелированы, но не зависятот остальных элементов матрицы. В ходе выполнения проекта в 2015 г. разработана техника,позволяющая доказать центральную предельную теорему для линейных статистиксобственных чиселтаких матриц. 8.Для многомерных статистик найдены предельные распределения, а также предельные квантили соответствующих функций распределения, и построены асимптотические разложения типа Чебышева-Эджворта и Корниша-Фишера при различных режимах изменения входящих параметров: а) при стремлении объема выборки nк бесконечности, когда размерность p наблюдений фиксирована; б) при стремлении к бесконечности как числа наблюдений n, так и их размерности p, при этом отношение p/nимеет предел, как правило, принадлежащий интервалу (0, 1). Помимо асимптотических результатов получены оценки точности аппроксимации распределений статистик и их квантилей в виде вычислимых оценок, когда значение оценки можно найти в виде числа при заданных значениях объема выборки nиразмерности наблюдений pи при заданных характеристиках, как правило, моментных, отдельного наблюдения. Для конкретных многомерных статистик получены уточнения результатов, основанных на пошаговой перегруппировке членов асимптотического разложения. Также были построены асимптотические разложения типа Корниша—Фишера для статистик, основанных на средних по наблюдениям, когда объем выборки является случайным. 9. Доказаны предельные теоремы для числа ребер Enв случайном графеcnузлами, показывающие, что после нормировки распределение En слабо сходится либо к нормальному закону, когда у случайных весов W второй момент конечен, либо к устойчивому распределению, когда распределение случайной величины W принадлежит области притяжения устойчивого закона с показателем, заключенным между 1 и 2. 10. Получено представление распределений многомерного аналога дробного движения Леви–многомерного дробного броуновского движения со случайным временем, в качестве которого рассматривается одномерное устойчивое движение Леви, одномерные сечения которого имеют одностороннее устойчивое распределение. Показано, что распределения этого процесса имеют вид масштабных смесей многомерного нормального распределения, причем разные координаты имеют различные представления в виде смесей. Предложено новое доказательство того, что процесс обладает свойством самоподобия и имеет стационарные приращения. Показано, что в отличие от обычного многомерного дробного броуновского движения со случайным временем, которое является многомерным движением Леви с многомерными устойчивыми эллиптически контурированными распределениями, в случае общего многомерного дробного броуновского процесса, рассматриваемого в проекте, компоненты результирующего процесса имеют распределения, отличные от устойчивых, хотя их хвосты убывают степенным образом.Построенный процесс использован для моделирования многомерного неоднородного трафика телекоммуникационной системы, когда на один сервер поступает нагрузка от нескольких источников по нескольким каналам с отдельными буферами для хранения нагрузки, ожидающей обслуживания. В рамках предложенной модели найдена асимптотическая (для больших размеров буферов) нижняя оценка вероятности переполнения хотя бы одного буфера, то есть потери информации. Особенностью полученной оценки является то, что она не зависит от того, как связаны между собой процессы поступления нагрузки по разным каналам. 11. Получены критерии сходимости распределений многомерных статистик, построенных по выборкам случайного объема, к дисперсионно-сдвиговым смесям многомерных нормальных законов. Доказаны уточненные критерии сходимости в пространстве Скорохода случайных блужданий, порожденных обобщенными дважды стохастическими пуассоновскими процессами со скачками, имеющими конечные дисперсии, к дисперсионным гамма-процессам Леви, в частности, к процессам Леви—Вейбулла. Впервые поставлена задача исследования асимптотического дефекта статистических оценок, построенных по выборкам случайного объема, и получены первые результаты в этом направлении: получены выражения для асимптотического дефекта оценок в случае, когда объем выборки имеет пуассоновское распределение. Разработан метод прогнозирования статистических характеристик нестационарных случайных процессов с помощью комбинированных сеточных алгоритмов разделения дисперсионно-сдвиговых смесей нормальных законов. Предложен метод прогнозирования финансовых рисков с использованием параметрических моделей из класса дисперсионно-сдвиговых смесей нормальных законов. Подробно изучены вопросы, связанные с практическим применением метода и скоростью его работы. Описан процесс настройки параметров (обучения модели). На реальных данных проиллюстрирована точность прогнозирования при использовании разныхметрик. Разработанные статистические процедуры применены к решению задачи локализации невосполнимых областей головного мозга человека на основе магнитоэнцефалографических исследований. В частности, оптимизированы алгоритмы синхронизации сверхслабых нестационарных сигналов магнитоэнцефалограмм и миограмм по опорным точкам. При синхронизации сигналов предложен новый метод динамической оконной дисперсии, использующий преимущества оконной дисперсии и вейвлет-анализа.
3 1 января 2016 г.-31 декабря 2016 г. Современные аналитические методы теории вероятностей и математической статистики, ориентированные на обработку больших массивов данных высокой размерности
Результаты этапа:

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".