ИСТИНА |
Войти в систему Регистрация |
|
ИСТИНА ИНХС РАН |
||
Рассматривается проблема выполнения длительных расчетов на высокопроизводительных вычислительных системах, компоненты которых подвержены отказам. Для программ, запускаемых на подобных системах, существенным является возможность обработки отказов путём автоматического продолжения расчета на оставшихся работоспособных узлах системы. Возможность обработки отказов предусматривается в разрабатываемом стандарте MPI с помощью расширения ULFM. В работе для многоуровневого координированного сохранения контрольных точек теоретически и экспериментально определяются величины накладных расходов на организацию отказоустойчивых вычислений по сравнению со временем работы исходной программы, в которой отсутствуют средства обеспечения отказоустойчивости.