Аннотация:Исследования в области распознавания речи ведутся еще с середины прошлого века. Сегодня задача распознавания речи является актуальной проблемой и для ее решения и упрощения используются VAD алгоритмы.
VAD (Voice Activity Detection) - обнаружение голосовой активности в речевом или аудио сигнале для последующего отделения активной речи от фонового шума и тишины. Эта задача является очень важной для приложений работающих с аудио или речью. Процедура обнаружения моментов начала и окончания фразы существенно уменьшает сложность задачи, если обрабатывать только те сегменты, в которых имеется речевой сигнал. Как показали многочисленные исследования, в речи может содержаться до 50% пауз, а в диалоге их объем может достигать 70%. Использование механизма VAD так же позволяет экономить на передаче данных по каналу связи, так как шум или участки тишины в речи не оцифровываются, не кодируются и таким образом «пустые» пакеты с тишиной не передаются по сети. По этой причине механизм VAD довольно часто применяется наряду с различными кодеками эффективного сжатия в IP-телефонии.
Целью данной работы является описать три VAD алгоритма, которые для классификации речевого фрагмента как активного/неактивного используют различные параметры звукового сигнала, такие как краткосрочная энергия, скорость пересечения нуля, спектральная плоскостность, энтропия и другие.