Комплексный подход к разработке и оптимизации ресурсоемких приложений сравнительного анализа белков для высокопроизводительных вычислительных системНИР

An integrated approach to the development and optimization of resource-intensive program solutions for comparative analysis of protein on HPC-systems

Соисполнители НИР

МГУ имени М.В.Ломоносова Координатор

Источник финансирования НИР

грант РФФИ

Этапы НИР

# Сроки Название
1 31 января 2020 г.-31 декабря 2020 г. Комплексный подход к разработке и оптимизации ресурсоемких приложений сравнительного анализа белков для высокопроизводительных вычислительных систем
Результаты этапа: Проведен сравнительный анализ особенностей функционирования существующих программных реализаций биоинформатических приложений, относящихся к широкому классу методов сравнительного анализа белков на разных уровнях структурной организации (в том числе, HHBlits, BLAST/PSI-BLAST, MAFFT, TCOFFEE, MATT, MTM-ALIGN, MUSTANG, Superpose/PDBeFOLD), дана оценка их вычислительной эффективности на современном оборудовании. Разработана первая версия комплексного подхода к оптимизации ресурсоемких приложений сравнительного анализа белков для высокопроизводительных вычислительных систем. Проведена глубокая переработка алгоритма МАТТ и предложена новая версия программы parMATT с паралеллизацией на уровне подзадачи (т.е. распараллеливание внутри одной задачи построения парного структурного сравнения). Разработана первая версия программного обеспечения для комплексной оценки качества 3D-структурного выравнивания. С ее помощью будет проведена оценка качества множественного 3D-структурного выравнивания, полученного новой версией программы parMATT. Проведено сравнение результатов работы программ МАТТ/parMATT с паралеллизацией на уровне задачи с результатами новой версии parMATT с паралеллизацией на уровне подзадачи, дана оценка соотношения скорость-качество при ускорении программы за счет разной глубины переработки кода. Сформулирована практическая значимость использования разных версий parMATT на HPC-оборудовании для решения разных задач биоинформатики.
2 1 января 2021 г.-31 декабря 2021 г. Комплексный подход к разработке и оптимизации ресурсоемких приложений сравнительного анализа белков для высокопроизводительных вычислительных систем
Результаты этапа: Разработана вторая, уточненная и дополненная, версия комплексного подхода к оптимизации ресурсоемких приложений сравнительного анализа белков для высокопроизводительных вычислительных систем. Представлен улучшенный способ оценки качества множественных 3D выравниваний на основе метрик TM-SCORE и COVERAGE. Будет представлена методика сравнения качества работы оригинальных методов множественного 3D выравнивания с модифицированными методами множественного 3D выравнивания, включающими в себя реализацию генетического алгоритма. Проведена настройка параметров генетического алгоритма, протестированы различные операторы мутации, скрещивания и селекции. Будет проведен анализ влияния вероятностей скрещивания и мутации на сходимость генетического алгоритма. На основе полученных результатов будет представлен метод адаптивного изменения вероятностей мутации и скрещивания во время работы алгоритма. Проведена оценка универсальности разрабатываемого подхода за счет имплементации ГА в другой современный алгоритм построения множественных 3D-выравниваний белков Caretta. Будет разработана первая версия программы gaCaretta (имплементация генетического алгоритма в Caretta) с реализацией метода адаптивного изменения вероятностей мутации и скрещивания. Проведено исследование вычислительной эффективности и качества работы программ для анализа 3D-структур белков gaMATT и gaCaretta на тестовых базах данных. Сформулирована стратегия дальнейшего улучшения вычислительной эффективности и повышения качества работы программ 3D-выравнивания структур белков за счет использования высокопроизводительных систем с распределенной памятью (классических кластеров и суперкомпьютеров) на основе MPI. Будет дана оценка эффективности взаимодействия программ для анализа 3D-структур белков gaMATT и gaCaretta с файловой системой (местом хранения входных данных) и эффективности операций ввода-вывода на разных типах накопителей (HDD, SSD). Реализована ре-имплементация функции AlignAlignmentBlocks алгоритма МАТТ для GPU. На базе оригинальной веб-платформы методов биоинформатики https://biokinet.belozersky.msu.ru/ разработана первая версия ресурса в сети интернет, предоставляющего веб-интерфейс для построения множественных 3D-выравниваний белков с использованием оригинальных программ, разрабатываемых в рамках проекта.
3 1 января 2022 г.-31 декабря 2022 г. Комплексный подход к разработке и оптимизации ресурсоемких приложений сравнительного анализа белков для высокопроизводительных вычислительных систем
Результаты этапа: Сформулирована итоговая версия комплексного подхода к оптимизации ресурсоемких приложений сравнительного анализа белков для высокопроизводительных вычислительных систем. Разработан оригинальный подход к улучшению качества множественных выравниваний 3D-структур белков (M3DSA) на основе ГА-оптимизации направляющего дерева, предложено математическое обоснования эффективности применения предложенного генетического алгоритма оптимизации путеводных деревьев. Предложен вариант кода ГА-оптимизированного алгоритма M3DSA с повышенной эффективностью вычислений путем кэширования и оптимизации сетевых операций и улучшения локальности данных. Разработана универсальная программная платформа/библиотека, позволяющая встраивать генетический алгоритм оптимизации путеводных деревьев в существующие программные пакеты множественного структурного выравнивания белков. Программная платформа/библиотека позволит эффективно запускать получаемые решения на суперкомпьютере, используя технологии параллельного программирования MPI + OpenMP/pthreads. Выполнена интеграция GPU-реализации множественного применения метода Кабша в алгоритм MATT. В полученной GPU-реализации алгоритма проведена оптимизация обмена данными между хостом и графическим ускорителем. Проведено исследование эффективности итоговой GPU-реализации алгоритма MATT.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".