Аннотация:В данной работе была поставлена задача разработки нейронной сети,
которая распознавала бы музыкальные жанры на основе входных аудио
данных. Для работы нейронной сети были использованы признаки мел-
спектрограмм (mel spectrogram), извлеченных из музыкального аудио.
Основой для обучения послужил dataset fma_small из 8000 песен формата
.mp3, по тысяче песен на восемь музыкальных жанров, который далее был
расширен до 40000(32000 для обучаемой выборки, 4000 для валидационной
выборки и 4000 для тестовой выборки).
В результате проведенной работы, нейронная сеть распознает 8
музыкальных жанров (Folk, Rock, Instrumental, Hip-Hop, Pop, Experimental,
International, Electronic). В качестве интерфейса для работы с нейронной
сетью было разработано веб-приложение. При загрузке пользователем
аудиофайла из этих 8 жанров приложение отобразит жанр загруженной
композиции и ее мел-спектрограмму.
Точность нейросети в распознавании восьми жанров, использованных в
обучении, достигает 74%. Этот результат сопоставим с человеческими
результатами в решении задачи классификации музыкальных жанров.