Компьютеризация биологических исследованийНИР

Digitalization of the biological studies

Источник финансирования НИР

госбюджет, раздел 0110 (для тем по госзаданию)

Этапы НИР

# Сроки Название
1 1 января 2021 г.-31 декабря 2021 г. Компьютеризация биологических исследований
Результаты этапа: РЕФЕРАТ Осуществлялась разработка и применение математических методов, алгоритмов и компьютерных программ для моделирования биологических процессов и анализа биологических данных. Объектами исследования по теме «Компьютеризация биологических исследования» были: прикладная эффективность методов теории вероятностей и математической статистики. Продолжены работы по компьютеризации обучения по общефакультетскому курсу "Математические методы в биологии" и курсу для бакалавров направления «Экология и природопользование» биологического факультета «Биологическая статистика». В 2021 году общефакультетский курс "Математические методы в биологии" и курс для бакалавров направления «Экология и природопользование» биологического факультета «Биологическая статистика» лекции были прочитаны в дистанционном режиме на платформе MS Teams. Продолжены работы по созданию учебно-методической базы новых спецкурсов: «Информатика. Математические методы в экологии», «Биометрика. Анализ многомерных данных», «Анализ данных в экологии». По результатам работы по теме были подготовлены две статьи. ВВЕДЕНИЕ Осуществлялась разработка и применение математических методов, алгоритмов и компьютерных программ для моделирования биологических процессов и анализа биологических данных. Разработанные алгоритмы и компьютерные программы, а также традиционные математические методы (в частности, методы анализа данных, методы математической статистики и теории вероятностей) применялись при выполнении работ по теме «Компьютеризация биологических исследований». Продолжены работы по компьютеризации обучения по общефакультетскому курсу "Математические методы в биологии" и курсу для бакалавров направления «Экология и природопользование» биологического факультета «Биологическая статистика». В 2021 году общефакультетский курс "Математические методы в биологии" и курс для бакалавров направления «Экология и природопользование» биологического факультета «Биологическая статистика» лекции были прочитаны в дистанционном режиме на платформе MS Teams. Продолжены работы по созданию учебно-методической базы новых спецкурсов: «Информатика. Математические методы в экологии», «Биометрика. Анализ многомерных данных», «Анализ данных в экологии». Рассматривалась следующая задача: используя многочисленные примеры экспериментальных данных в том числе и в биологии, а также моделируемые матрицы данных по теме «Компьютеризация биологических исследований» была рассмотрена классификация методов анализа многомерных данных Несмотря на чрезвычайное разнообразие методов анализа многомерных данных, имеется четкая система представления как самих данных, так и результатов их анализа. Данные представляются в виде прямоугольной таблицы (матрицы), строки которой соответствуют различным ситуациям (опытам, экспериментам, наблюдениям), а столбцы переменным, наблюдаемым в этих ситуациях. Результаты же представляются в виде функций, выражающих одни переменные (называемые зависимыми переменными, или откликами) через другие переменные (называемые независимыми переменными, или факторами). Такое представление исходных данных и результатов анализа чрезвычайно удобно, поскольку предлагает ясную схему для сбора данных, их обработки и интерпретации полученных результатов. Классификация методов анализа данных проведена по двум основаниям: отсутствию или наличию независимых переменных, а также по типу зависимых и независимых переменных, которые могут быть качественными или количественными. Основным служит деление на методы, предполагающие наличие независимых переменных и не предполагающие их наличие. Это деление определяет содержательную постановку задачи, тогда как дальнейшее деление методов по типу зависимых и независимых переменных носит скорее технический характер, детализируя математическую процедуру ее решения. В случае априорного разделения переменных на зависимые и независимые задача анализа состоит в получении описания зависимости Y от X. Выбор метода решения зависит прежде всего от того, являются ли качественными или количественными зависимые переменные Y. Окончательное решение о выборе метода анализа данных принимается в зависимости от типа независимых переменных X. Наиболее часто на практике для установления связи между независимыми и зависимыми переменными применяют регрессионный анализ и дисперсионный анализ. В обоих случаях откликами служат количественные переменные, однако факторы в регрессионном анализе количественные, а в дисперсионном - качественные. В регрессионном анализе наиболее явно виден функциональный характер модели анализа данных. Задача регрессионного анализа прямо формулируется как задача поиска функциональной зависимости Y от X, причем задача поиска формы связи не менее важна, чем вопросы статистической значимости полученных результатов. Наиболее широко применяется модель множественного линейного регрессионного анализа, позволяющая получать аналитически все стандартные статистические оценки. В более сложных ситуациях (например, при использовании пошаговых процедур) для получения статистических выводов приходится применять методы, основанные на стохастическом моделировании, такие как случайная пермутация или бут-стрэп. Задачей дисперсионного анализа является установление связи между независимыми качественными переменными и зависимыми количественными. Однако поскольку функциональная структура связи очень проста - отклики представляются как линейные комбинации бинарных переменных - уровней факторов, то основное внимание в дисперсионном анализе уделяется вопросам статистической значимости влияния отдельных факторов. Если отклики Y качественные, то для анализа используется группа методов, известная под общим названием распознавания образов. Наиболее используемым методом распознавания в случае количественных факторов является дискриминантный анализ. Примерами методов распознавания, ориентированных на случай качественных факторов, могут служить сегментационный анализ и метод обобщенного портрета. Целью дискриминантного анализа является получение правила, позволяющего на основе наблюденных значений количественных независимых переменных X предсказывать значение качественной переменной Y, указывающей на принадлежность наблюдения к одному из заданных классов. Сегментационный анализ состоит в последовательном разбиении совокупности наблюдений с целью получения, в конечном итоге, групп, максимально однородных по классовому составу. Случай отсутствия зависимых переменных предполагает, что все анализируемые переменные в некотором смысле равноправны, и мы принимаем их за отклики (для простоты будем считать их количественными), значения которых определяются какими-то нам неизвестными факторами. Примерами могут служить морфологические или генетические характеристики растений, животных или людей, принадлежащих определенному таксону или обитающих на определенной территории. Задача анализа состоит в поиске этих неизвестных факторов. Выбор метода решения зависит от того, считаем ли мы искомые факторы качественными или количественными. Для поиска качественных факторов используется группа методов, известная под названием кластерный анализ, среди которых наиболее часто используется так называемый агломеративно-иерархический метод, основанный на последовательном объединении многомерных наблюдений сначала в мелкие, а затем во все более и более крупные группы. Результатом кластерного анализа является разбиение всей совокупности наблюдений на классы. Полученной классификации соответствует качественная переменная (или несколько переменных, если используются несколько классификаций разной степени дробности или пересекающиеся классификации), категориями которой служат номера классов. Именно эта переменная (или переменные) и будет искомым качественным фактором. Найдя такой фактор (классифицирующую переменную), мы получаем возможность объяснять сходство или различие в значениях откликов для разных наблюдений принадлежностью их к одному или к разным классам. Если же неизвестные факторы ищутся в форме количественных переменных, то используются методы факторного анализа. В этом случае задача состоит в представлении имеющихся откликов, Y, в виде линейных комбинаций неизвестных количественных факторов, X . С практической точки зрения применение этого метода оправдано, если удается с достаточной степенью приближения выразить большое количество откликов через малое число факторов. Одним из наиболее часто используемых методов этого класса является метод главных компонент, основанный на ортогональном проектировании исходного многомерного пространства в пространство меньшей размерности, в котором точки-наблюдения имеют наибольший разброс. Метод позволяет записать исходные данные в более компактном виде с сохранением максимума содержащейся в них информации и даже представить их графически на плоскости для случая двух факторов. Следует еще раз подчеркнуть, что основным является деление методов анализа на те, в которых переменные делятся на зависимые и независимые (анализ связи), и те, в которых такого деления нет (анализ факторов). Дальнейшее деление методов по типу откликов и факторов довольно относительно. Дело в том, что уровни качественных факторов можно рассматривать как бинарные переменные, которые, в свою очередь, можно считать количественными переменными со значениями 0 и 1. С другой стороны, непрерывную шкалу значений количественной переменной можно категоризовать и рассматривать эту переменную как качественную. Во всяком случае, такого рода преобразования приходится делать вынужденно, когда по типу различаются не только факторы и отклики, но и разные переменные среди факторов или среди откликов. В работе были получены актуальные результаты по темам: «Изучение свойств и границ применимости методов математической статистики» и "Выбор мер различия в кластерном анализе". Кластерный анализ в некотором смысле похож на многомерный дисперсионный анализ – количественные отклики и качественные факторы. Существенное различие, однако, состоит в том, что факторы неизвестны и надо каким-то образом их сконструировать. Идея этого конструирования проста – наблюдения разбиваются на однородные группы, которые объявляются разными классами, а переменная, указывающая на принадлежность каждого наблюдения к одному из этих классов, объявляется искомым качественным фактором. Проблема, следовательно, состоит только в том, как разбить совокупность наблюдений на однородные группы. Имеется много методов решающих эту задачу, наиболее распространенным из которых является агломеративно-иерархический кластерный анализ, который последовательно объединяет наблюдения, начиная с самых близких, во все более и более крупные группы. Результаты этого последовательного объединения представляются в виде дендрограммы. Можно, однако, по-разному определять как близость отдельных наблюдений, так и сформированных из них групп – кластеров. Исходные данные в задачах кластерного анализа задаются в виде таблицы (матрицы), строки который соответствуют различным наблюдениям, а столбцы – различным переменным Если рассматривать строки-наблюдения, как точки в пространстве переменных, то естественно использовать в качестве меры различия между наблюдениями i и k евклидово расстояние между соответствующими им точками в многомерном евклидовом пространстве (размерность многомерного пространства равна количеству переменных в матрице экспериментальных данных). Если, однако, переменные измерены в разных единицах, то суммирование квадратов их разностей будет неправомерным. В таких случаях следует каким-то образом сделать переменные соизмеримыми, например, путем их стандартизации, т.е вычитания выборочного среднего и деления на выборочное среднеквадратическое отклонение. Можно использовать и другие меры различия между наблюдениями, например, манхеттеновское, или сити-блок расстояние, равное сумме абсолютных величин разностей между значениями переменных В большинстве случаев эта мера расстояния приводит к таким же результатам, как и для обычного расстояния Евклида. Однако отметим, что для этой меры влияние отдельных больших разностей (выбросов) уменьшается (так как они не возводятся в квадрат). Квадрат евклидова расстояния: иногда может возникнуть желание возвести в квадрат стандартное евклидово расстояние, чтобы придать большие веса более отдаленным друг от друга объектам. Расстояние Чебышева: это расстояние может оказаться полезным, когда желают определить два объекта как «различные», если они различаются по какой-либо одной координате (каким-либо одним измерением). Степенное расстояние: иногда желают увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются. Расстояние Минковского: если степень корня=1 – расстояние сити-блок, если степень корня =2 – Евклидово расстояние. В случае бинарных переменных используются меры расстояний (коэффициенты сходства). Жаккара, Соренсена, Кульчинского. Манхеттеновское расстояние между двумя наблюдениями в случае бинарных переменных равно просто сумме несовпадающих значений в них и обычно называется хэмминговым. Существуют и другие меры расстояния, предлагаемые в пакетах прикладных статистических программ. Например, метод Лямбда (используется для дихотомических переменных, где данные представлены только двумя значениями — 0 и 1); метод Хи- квадрат (используется для переменных с номинальным типом шкалы); метод корреляции Пирсона (для кластеризации переменных) и другие. Вычислив каким-либо способом расстояния между всеми парами наблюдений, мы получим матрицу расстояний. которая и служит основой для дальнейших расчетов. Имея матрицу расстояний, можно начать процесс последовательного объединения наблюдений в кластеры. Алгоритм этого объединения работает следующим образом. Сначала все наблюдения считаются отдельными кластерами. На первом шаге в матрице расстояний ищется минимальный внедиагональный элемент (поскольку матрица симметрична, достаточно просмотреть ее поддиагональную часть). Пусть этот элемент находится на пересечении i–ой строки и j–го столбца, что означает, что среди всех пар кластеров, состоящих каждое из одного наблюдения, наиболее близки между собой i–ый и j–ый кластеры. Эти два кластера объединяются между собой в один и общее число кластеров уменьшается на единицу – их становится n –1 вместо исходных n. Возникает, однако, проблема определения расстояния от вновь образованного кластера i+j до остальных кластеров. Рассмотрим некоторые возможные варианты. Можно определить расстояние от i+j до любого другого кластера k как минимум из расстояний от i до k и от j до k. Это так называемый метод минимальной связи, или метод ближайшего соседа. Другой вариант - определить расстояние от i+j до любого другого кластера k как максимум из расстояний от i до k и от j до k. Это метод максимальной связи, или метод дальнего соседа. Третий вариант, метод средней связи, состоит в определении расстояния от i+j до любого другого кластера k как среднего арифметического из расстояний от i до k и от j до k Метод средней связи имеет модификацию, называемую методом взвешенной средней связи. Она отличается тем, что если на некотором шаге объединяются кластеры от i и j, состоящие, соответственно, из и Ni и Nj наблюдений, то расстояние от их объединения до любого другого кластера k вычисляется не как простое среднее, а как среднее взвешенное из расстояний от i до k и от j до k Метод дальнего соседа имеет тенденцию формировать кластеры одинакового размера и может не учитывать реальной неоднородности расположения наблюдений в пространстве признаков. Метод ближайшего соседа, наоборот, хорошо отслеживает локальные неоднородности и может выявлять кластеры довольно сложной формы и разного размера. Однако он может объединить очень разные кластеры, если между ними случайно имеется цепочка близких наблюдений. Хорошим компромиссом между этими двумя методами является метод взвешенной средней связи. Невзвешенный центроидный метод: В этом методе расстояние между двумя кластерами определяется как расстояние между их центрами тяжести. Взвешенный центроидный метод (медиана): этот метод идентичен предыдущему, за исключением того, что при вычислениях используются веса для учёта разницы между размерами кластеров (т.е. числами объектов в них). Поэтому, если имеются (или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего. Второй и последующий шаги аналогичны первому – каждый раз объединяются два самых близких кластера и вычисляются расстояния от нового объединенного кластера до остальных. На каждом шаге общее число кластеров сокращается на единицу и процесс заканчивается, когда все кластеры объединятся в один. Результаты кластерного анализа удобно представлять в виде так называемой дендрограммы, графически представляющей последовательность объединений с учетом расстояний между объединяющимися кластерами. Ее визуальный анализ может помочь в определении числа кластеров, на которые естественным образом разбивается совокупность наблюдений – объединение сильно различающихся кластеров отражается на дендрограме скачкообразным увеличением межкластерного расстояния. Среди других широко известных алгоритмов кластерного анализа следует отметить так называемый метод K средних. Его идея проста. Среди исходных наблюдений выбираются наудачу K наблюдений – начальных центров будущих кластеров. Первый шаг алгоритма начинается с распределения всех наблюдений между этими центрами – каждое наблюдение относится к ближайшему центру. После этого центры кластеров пересчитываются заново – каждая координата центра кластера вычисляется как среднее из координат входящих в этот кластер наблюдений. Второй и последующие шаги аналогичны первому. Процедура заканчивается, когда центры кластеров перестанут смещаться при новом пересчете. Несомненным преимуществом метода K средних является возможность классифицировать с помощью него наборы из многих сотен и даже тысяч наблюдений, тогда как с помощью агломеративно-иерархического алгоритма, хотя теоретически и возможно, но слишком громоздко обрабатывать более сотни-двух наблюдений. Недостатками его являются необходимость априорного задания числа кластеров, отсутствие наглядного представления результатов и зависимость результатов от начального выбора центров – при неудачном их выборе алгоритм может дать классификацию, не соответствующую реально имеющейся. Выполнена учебно-методическая работа по компьютеризации и совершенствованию обучения по общефакультетскому курсу "Математические методы в биологии" и курсу «Биологическая статистика» для бакалавров направления «Экология и природопользование» биологического факультета. Разработан практикум для студентов (варианты для работы в среде LibreOffice и Excel) с пояснениями и указаниями на базе широко известных в специальной литературе экспериментальных данных. В 2021 году общефакультетский курс "Математические методы в биологии" и курс «Биологическая статистика» для бакалавров направления «Экология и природопользование» биологического факультета лекции были прочитаны в дистанционном режиме на платформе MS Teams. На семинарах широко использовался пакет R. Продолжены работы по созданию учебно-методической базы новых спецкурсов: «Информатика. Математические методы в экологии», «Биометрика. Анализ многомерных данных», «Анализ данных в экологии». Осуществлялось техническое и информационное оснащение учебных классов. Осуществлялся поиск в литературе примеров классических экспериментальных данных, подходящих для использования их в преподавании. Ожидаемые результаты подчеркивают практическую значимость работы.
2 1 января 2022 г.-31 декабря 2022 г. Компьютеризация биологических исследований
Результаты этапа: Разработаны математические методы, алгоритмы и программы для моделирования биологических процессов и анализа биологических данных, разработаны программы и создана методическая база новых спецкурсов, подготовлены научные статьи, учебные пособия. Будут получены актуальные результаты по темам: «Изучение свойств и границ применимости методов математической статистики», "Применение непараметрических критериев проверки гипотез". Будет выполнена учебно-методическая работа по совершенствованию общефакультетских курсов "Математические методы в биологии" и «Биологическая статистика» для студентов 2-ого курса Биологического факультета МГУ. Перевод лекционных курсов в режим презентации лекций. Осуществление семинарских и практических занятий в среде R и STATISTICA. Поиск в литературе примеров классических экспериментальных данных, подходящих для использования их в преподавании. Ожидаемые результаты подчеркивают практическую значимость работы.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".