Описание:Спецкурс «Биометрия.Анализ многомерных данных» предназначен для студентов кафедры биоинженерии Биологического факультета МГУ (24 ак.часов).
Локальные свойства структуры ДНК и ее физико-химические характеристики, зависящие от нуклеотидной последовательности, являются важными факторами биологического функционирования. В настоящее время развитие экспериментальных и компьютерных методов исследования физико-химических характеристик ДНК в зависимости от ее нуклеотидной последовательности является актуальным.
Этот курс посвящен статистическим и графическим методам анализа многомерных данных. Усвоению материала, излагаемого в данном курсе, способствует большое число примеров из научных работ, посвященных задачам молекулярной биологии и биоинформатики.
На практических занятиях студенты получают навыки работы с пакетом программ STATISTICA, включая самостоятельное составление необходимых компьютерных подпрограмм.
Конечная цель курса – освоение студентами теоретических подходов и практических методов анализа многомерных данных, применяемых в научных исследованиях. Овладение методами многомерного статистического анализа дает возможность разработать рациональную методику иссле¬дования, четко организовать и провести его, получить существенные тео¬ретические и практические результаты.
1. Многомерные случайные величины. Основы математической статистики.
Критерии согласия. Непараметрические критерии
2. Классификация методов анализа многомерных данных.
3. Методы анализа связи. Регрессионный и корреляционный анализы. Простая и множественная регрессия. Нелинейный регрессионный анализ. Логистическая регрессия. Дисперсионный анализ Типы моделей в зависимости от математической природы факторов. Однофакторный дисперсионный анализ: модель с постоянными уровнями фактора; модель со случайными уровнями фактора. Методы множественного сравнения. Двухфакторный дисперсионный анализ. Непараметрические методы анализа связи между количественной и качественными переменными. Критерии Крускала-Уоллиса и Брауна-Муда для однофакторного анализа; критерии Фридмана и Пейджа для двухфакторного анализа. Непараметрические методы множественного сравнения.
4. Анализ таблиц сопряженности признаков Категоризованные данные. Построение таблиц сопряженности признаков. Статистические гипотезы для таблиц сопряженности: 1. Гипотеза об однородности; 2. Гипотеза о независимости; 3. Статистическая модель – гипергеометрическое распределение.
5. Кластерный анализ
Агломеративно-иерархический кластерный анализ. Дендрограмма кластерного анализа. Кластеры. Проблема выбора расстояния (меры различия). Правила объединения в кластеры. Кластерный анализ наблюдений. Кластерный анализ переменных.
6. Дискриминантный анализ Дискриминантный анализ как одна из задач распознавания образов. Байесовское правило. Дискриминантные функции. Линейный дискриминантный анализ. Расстояние Махаланобиса. Метод к-ближайших соседей. Пошаговый дискриминантный анализ.
7. Факторный анализ и метод главных компонент
Предположения, лежащие в основе факторного анализа и метода главных компонент. Геометрическая и алгебраическая интерпретация главных компонент. Факторный анализ. Модель факторного анализа. Факторные нагрузки. Методы выделения факторов.
8. Статистический анализ ультразвукового расщепления межнуклеотидных связей в нуклеотидных последовательностях ДНК.
Для статистического анализа будем использовать полученные в работе [8] экспериментальные данные (файл данных AA-TT_A_T.sta). Это – значения относительных частот расщепления как межнуклеотидной связи после каждого из четырех нуклеотидов, так и центральной связи в каждом из 16 динуклеотидов. Они были определены для участков (длиной от ~100 до ~250 нуклеотидов) 140 фрагментов ДНК с известными нуклеотидными последовательностями.
Постановка задачи
1. Определить, влияет ли фактор, т.е. тип нуклеотида (динуклеотида), на относительную частоту расщепления.
2. Если фактор влияет, найти, для какого нуклеотида (динуклеотида) относительную частоту разрыва можно считать максимальной (минимальной).
Методы решения
1. Для анализа зависимости между относительной частотой разрыва и нуклеотидным составом следует использовать однофакторный дисперсионный анализ и непараметрические критерии Крускала–Уоллиса и Брауна–Муда (Kruskal-Wallis test, Brown-Mood test).
2. Чтобы выяснить, для какого нуклеотида (динуклеотида) относительную частоту разрыва можно считать максимальной (минимальной), применим параметрические (Tukey-Kramer, GT2-, T'-) и непараметрический (Kruskal-Wallis test ) методы множественного сравнения.
Результаты анализа
Таблицы дисперсионного анализа для нуклеотидов и динуклеотидов;
Таблицы значений выборочных средних относительной частоты разрыва для нуклеотодов, динуклеотидов и 95% доверительные интервалы для средних.;
Графики зависимости выборочных средних относительной частоты разрыва от типа нуклеотида и от типа динуклеотида.
Таблицы результатов множественного сравнения.
Интерпретация результатов
Статистический анализ выявил статистически значимое влияние нуклеотидного состава на относительную частоту разрыва. Важным результатом проведенного анализа является то, что положения центров распределения относительных частот разрывов в комплементарных динуклеотидах различаются значимо.
9. Ультразвуковое расщепление комплексов ДНК с катионами Ag(I), Hg(II), Cu(II)
Анализ структурных изменений в ДНК, которые происходят в результате ее связывания с катионами переходных металлов, представляет большой биологический интерес.
Постановка задачи
1. Выявить влияние двух факторов - катионов Ag(I), Cu(II), Hg(II) и их концентраций, с=0; 0.25; 0.50; 1.0, - а также их взаимодействия, на относительную интенсивность расщепления после нуклеотида.
2. Определить, какие значения факторов оказывают максимальное и минимальное значения на интенсивность расщепления после нуклеотида.
Методы решения
1. Двухфакторный дисперсионный анализ: модель с взаимодействием факторов.
2. Чтобы выяснить, для каких факторов относительную частоту разрыва можно считать максимальной (минимальной), надо использовать параметрические (Tukey-Kramer, GT2-, T'-, Duncan) и непараметрический (Kruskal-Wallis test ) методы множественного сравнения.
Интерпретация результатов
Практические занятия.
Применение различных методов анализа многомерных данных мы покажем на нескольких примерах, используя следующие данные:
10. Ультразвук расщепляет ДНК в зависимости от ее нуклеотидной последовательности. В работах [5, 6, 7] получены значения относительной частоты расщепления центральной связи во всех возможных ди- и тетрануклеотидах фрагментов ДНК с известными нуклеотидными последовательностями.
11. Рассматривается задача о фосфорилировании белок-белковых комплексов [4, 9]. Три аминокислоты: серин, треонин, тирозин, - определяют состояние интерфейсов комплексов до и после фосфорилирования. Из банка данных NCBI извлекаются значения необходимых признаков: phosphorylation, P(0,1); disorder, D (0,1); interface, I (0,1); residue type, T (1, 2, 3); homo/hetero oligomerization state, H. Объем каждой выборки N=33054.
12. Рассматриваются 322 нуклеотидные последовательности промоторной области генов. Каждую последовательность мы описываем следующими физическими характеристиками с 50-ю признаками: T(i,j) – температура плавления j-ого динуклеотида в i-ом промоторе; Ultra(i,j) – значения относительной частоты ультразвукового расщепления; BA(i, j) – значения энергии перехода ДНК из B в A форму, i=1, 2, …, 322; j=1, 2, …, 50.
Задания
1.Эксперимент состоит в сравнении I методов исследований некоторой характеристики крови у собак, это пост фактор с I уровнями, переменная Y – некоторая характеристика крови, а экспериментальная единица – собака. Какой план избрать?
a) Однофакторный план: в i-ом методе исследования характеристики крови анализируются Ji собак и измеряется характеристика крови каждой собаки. Недостаток – дисперсия ошибки включает как ошибку измерения, так и различия между собаками.
b) План со случайными блоками: метод исследования характеристики крови – пост-ый фактор А, собаки – случайный фактор для смешанной модели двухфакторного дисперсионного анализа. Выберем J собак и проведем I исследований у каждой собаки в случайном порядке. Достоинство: эффекты всех I способов получены от однородного блока, т..е. от от одной и той же собаки. Недостаток: наблюдения в каждом блоке зависимы.
c) План с группировкой для смешанной модели двухфакторного дисперсионного анализа. Фактор B, собаки считаем подчиненным фактору А, метод исследования. При этом случайная выборка из J собак подвергается 1-ому методу исследования, другая случайная выборка такого же объема – 2-ому методу и т.д. Этот план позволяет оценить и ошибки измерения, и различия между собаками, и разницу между методами исследования.
Выписать модели для каждого плана.
2.Определить, влияет ли фактор, т.е. тип нуклеотида (динуклеотида), на относительную частоту расщепления.
3.Если фактор влияет, найти, для какого нуклеотида (динуклеотида) относительную частоту разрыва можно считать максимальной (минимальной).
4.Оценить влияние типа катиона и его концентpации на отноcительную интенcивноcть pаcщепления в каждом из 16 динуклеотидов.
ЛИТЕРАТУРА
1. Мятлев В.Д., Панченко Л.А., Ризниченко Г.Ю., Терехин А.Т. Теория вероятностей и математическая статистика. Математические модели. 2-е изд., испр. и доп. М.: Издательство «Юрайт», 2017, 321 с.
2. Grokhovsky S.L., Il'icheva I.A., Nechipurenko D.Yu., Golovkin M.V., Panchenko L.A., Polozov R.V., Nechipurenko Yu.D. Sequence-specific ultrasonic cleavage of DNA. Biophys. J. 100, 117-125 (2011).
3. Панченко Л.А., Ильичева И.А., Нечипуренко Д.Ю., Нечипуренко Ю.Д., Полозов Р.В., Гроховский С.Л. Специфическое расщепление ДНК ультразвуком: статистический анализ данных. Сборник трудов Международной научной конференции «В.В. Налимов – математик и философ». Москва, МАКС Пресс, 2011, с. 145-153.
4. Nishi H, Fong JH, Chang C, Teichmann SA, Panchenko AR. Regulation of protein-protein binding by coupling between phosphorylation and intrinsic disorder: analysis of human protein complexes. Mol Biosyst. 9(7):1620-6 (2013).
5. Grokhovsky S.L., Il'icheva I.A., Nechipurenko D.Yu., Golovkin M.V., Panchenko L.A., Polozov R.V., Nechipurenko Yu.D. Mechanochemical Cleavage of DNA by Ultrasound. «Ultrasonics: Theory, Techniques and Practical Applications.», 2013, pp.1-24.
6. С. Л. Гроховский, И. А. Ильичева, Л. А. Панченко, М. В. Головкин, Д.Ю. Нечипуренко, Р.В.Полозов, Ю.Д. Нечипуренко. Ультразвуковое расщепление ДНК в комплексах с катионами Ag(I), Cu(II), Hg(II). Биофизика, т.58, вып. 1, 2013 с. 36-46.
7. M.S. Poptsova, I.A. Il’icheva, D.Yu. Nechipurenko, L.A. Panchenko, M.V. Khodikov, N.Y. Oparina, R.V. Polozov, Yu.D. Nechipurenko & S.L. Grokhovsky. Nonrandom DNA fragmentation in next-generation sequencing. Scientific Reports 31, 2014, pp.4532-4535 DOI.
8. Грохлина Т.И., Панченко Л.А., Полозов Р.В., Сивожелезов В.С., Иванов В.В.
Классификация комплексов семейств белков: гомеодомены – ДНК, цинковые пальцы – ДНК. Статистический анализ структур ДНК в интерфейсах комплексов гомеодомен – ДНК Грохлина Т.И., Панченко Л.А., Полозов Р.В., Сивожелезов В.С., Иванов В.В. в сборнике Доклады Международной конференции «Математическая биология и биоинформатика», том 7, 2018, с. 65-70 DOI
9. Ильичева И. А., Панченко Л. А., Урошлев Л. А., Абдуллаев Э.Т., Ходыков М.В., Полозов Р. В., Нечипуренко Ю. Д. Механохимическое расщепление ДНК как инструмент анализа функциональных участков генома. Обозрение прикладной и промышленной математики, т. 26, вып. 4, 254-262 (2019)
10. Ильичева И. А., Ходыков М.В., Панченко Л. А., Полозов Р. В., Нечипуренко Ю. Д. Механохимическое расщепление ДНК и его применение для анализа генома. Биофизика (в печати)
11. Uroshlev L.A., Abdullaev E.T., Umarova I.R., Il’icheva I.A., Panchenko L.A., Polozov R.V., Kondrashov F.A., Nechipurenko Yu. D., Grokhonsky S. L. Identification of epigenetic DNA modification in cancer tissues from raw next generation sequencing data / Scientific Reports (in press).
12. Нечпуренко Ю.Д., Урошлев Л.А., Абдулаев Э.Т., Ходыков М.В., Полозов Р.В., Панченко Л.А., Ильичева И.А. Механохимическое расщепление ДНК и свойства регуляторных участков генома. Сборник научных трудов VI Съезда биофизиков России , том 1, 120-121 (2019)