Аннотация:По мере роста популярности мобильных устройств в
наступающую эпоху 5G, мобильные приложения, особенно для задач, требующих больших вычислительных ресурсов, таких как онлайн-игры, распознавание лиц и дополненная или виртуальная реальность на основе определения местоположения, столкнулись с ограниченными вычислительными возможностями устройств. Для сохранения качества восприятия услуг (QoE — Quality of Experience) была предложена технология периферийных вычислений с множественным доступом (ПВМД) в качестве решения проблемы роста спроса на вычисления, запрашиваемые приложениями, при ограниченных ресурсах мобильных устройств. В последнее время глубокое обучение с подкреплением стало эффективным методом решения задач обучения с подкреплением с большими пространствами состояний и действий, которые возникают при решении задач распределения заданий и ресурсов. Существуют работы по распределению заданий на основе глубокого обучения с подкреплением для сетей ПВМД, однако эти подходы часто не применимы к задачам, возникающим на практике, из-за использования централизованных алгоритмов для принятия всех решений. Как правило, балансировка заданий выполняется в системах вычислителей, где задачи должны быть распределены между несколькими вычислителями. Мультиагентное обучение с подкреплением — Multi-Agent Reinforcement Learning (MARL) — обучает множество агентов взаимодействовать в общей среде: сотрудничать или конкурировать. Эта концепция контрастирует с одноагентным обучением с подкреплением, где состояние окружающей среды меняется исключительно в результате действий отдельных агентов. В данной работе предлагается алгоритм мультиагентного обучения с подкреплением, способный решить задачу балансировки нагрузки в неоднородной РВС.