ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ИНХС РАН |
||
В области высокопроизводительных вычислений отказоустойчивость становится од-ной из главных проблем из-за увеличения отказов в оборудовании. Наиболее пер-спективное решение состоит в предоставлении пользователю возможности обраба-тывать отказ в своем приложении на уровне MPI (ULFM). В данной работе рассмат-риваются методы координированного сохранения контрольных точек на уровне пользователя: сохранение в распределенную файловую систему, многоуровневый метод сохранения, метод массового дублирования на локальные устройства хране-ния. Дается оценка применимости этих методов для организации отказоустойчивых вычислений. Ключевые слова: параллельное программирование, MPI, расширение ULFM, кон-трольные точки, координированное сохранение, отказоустойчивые вычисления.