Аннотация:ростом сложности вычислительных кластеров для обеспечения их эффективной работы на первый план выходит проблема отказоустойчивости. Ее решение в настоящее время является одной из самых активно развивающихся областей, связанной с высокопроизводительными вычислениями. В данной работе рассмотрена задача построения автоматизированной системы классификации состояний вычислительного кластера с целью прогнозирования и своевременного выявления нештатных ситуаций в его работе. Для ее решения был предложен алгоритм, использующий методы машинного обучения на основе подхода опорных векторов (SVM/SVR). Отличительной особенностью используемого алгоритма является его модульный характер, допускающий выбор наиболее эффективных методов для решения подзадач всего алгоритма обработки входных данных. На примере анализа данных мониторинга, собранных с реально действующих вычислительных кластеров, была показана принципиальная применимость предложенного алгоритма для обнаружения новых состояний вычислительного кластера: при правильном выборе пара-метров используемых методов удается осуществлять прогнозирование возможных будущих состояний с точностью 6–16 % и фиксировать критическое изменение контролирующих величин в пределах 3–5 шагов прогноза. При малом числе показаний сенсорных датчиков, содержащих выпадающие значения (5–10 %), наблюдается устойчивость системы к сбоям в показаниях сенсорных датчиков. Возможное дальнейшее развитие автоматизированной системы связано с использованием online-алгоритмов SVM/SVR и методов выявления сложных типов аномального поведения вычислительных кластеров.