Аннотация:Дипломная работа Серовой Екатерины Владимировны посвящена разработке и тестированию алгоритма отбора семейств ортологов на основе доменной архитектуры. Задача отбора семейств генов для любого заданного набора видов – одна из ключевых задач эволюционной геномики. Большинство известных методов, используемых для определения ортологов, основано на сходстве последовательностей. Филогенетические методы признаны более надёжными, но их сложно автоматизировать, и сложность возрастает с увеличением числа рассматриваемых видов. Так или иначе, все существующие методы поиска ортологов несовершенны и имеют ряд ограничений, в связи с чем представляется актуальным разработка нового метода или усовершенствование существующего.
Екатериной Серовой был разработан алгоритм, позволяющий разделять белки по группам на основе доменной архитектуры, а также его внедрения в автоматический поток алгоритма BranchClust. Алгоритм основан на представлении группы белков, объединенных в одно суперсемейство по признаку статистически значимого сходства, в виде сети. Расстояния между белками в этой сети обратно пропорциональны коэффициенту сходства их доменной архитектуры, который вычисляется по коэффициенту Жаккара. Информация о доменной архитектуре бралась из базы данных Conserved Domain Database. Далее, с помощью алгоритма ClusterONE сеть разбивалась на непересекающееся множество подсетей, соответствующих группам гомологичных белков. С помощью алгоритма BranchClust из этих групп впоследствии были выделены семейства ортологов. Алгоритм был протестирован на разных наборах геномов бактерий и архей.