Аннотация:Обучение с подкреплением является методом машинного обучения, приближенным к естественному: агент учится взаимодействовать со средой, выбирая действия максимизирующие суммарную награду. Классический подход обучения с подкреплением предполагает заполнение таблицы ценностей (Q-таблицы) того или иного действия в зависимости от текущего состояния. Подобный подход затруднителен при большом или бесконечном числе состояний. С другой стороны, искусственные нейронные сети моделируют принятие решений живыми существами. Подход, совмещающий в себе обучение с подкреплением и глубокие нейронные сети получил название глубокого обучения с подкреплением.
В работе предложены две модельные задачи с малым и бесконечным числом состояний, автор применил к ним оба подхода и сравнил временные и качественные характеристики. Проведённые эксперименты показали, что в первом случае (с небольшим числом состояний) выигрывает классический алгоритм обучения с подкреплением, а во втором – нейросетевой.