Аннотация:В настоящей работе предложен новый алгоритм для оценки синхронизации речи на
видео. В частности, этот метод может быть применен для оценки качества так назы-
ваемых «говорящих голов» – алгоритмов генерации видеоряда с говорящим человеком
по аудиофайлу с речью. Преимущество метода состоит в том, что это первый метод,
позволяющий сравнивать между собой как 2D, так и 3D алгоритмы говорящих голов.
Также предложенный алгоритм работает значительно быстрее текущего общеприня-
того метода SyncNet, при этом не сильно уступая ему в качестве по задаче детекции
рассинхронизации на видео. Показано, что совмещение этих подходов приводит к улуч-
шению качества на той же задаче.