Аннотация:Цель данной работы - исследование и реализация методов стимулируемого обучения
(reinforcement learning), набора методов для решения широкого класса задач. В
основе этих методов представление задачи как взаимодействие агента и среды, его
окружающей. Агент A находится в одном из состояний из множества состояний S.
Состояние - один из ключевых атрибутов агента и оно может меняться в ходе
взаимодействия со средой, но всегда равно одному из значений из S (никакой
квантовой механики). Некоторые состояния могут являться терминальными, то есть
быть целью агента. Эпизодом называется процесс перехода агента из начального
состояния в терминальное. Для этого агент последовательно предпринимает
действия из некоторого множества действий A.
Взаимодействие со средой происходит при выборе агентом действия. Оно
выражается в переходе агента в следующее состояние (возможно - такое же,
как было раньше) и получении некоторого отклика от среды, значения, которое
можно интерпретировать как награду или штраф. Это значение характеризует то,
насколько хорошим было выбранное действие в данный момент. Таким образом,
среду можно представить как некую функцию, которая получает в качестве
аргументов текущее состояние агента и выбранное им действие и возвращает новое
состояние и значение, характеризующее полезность выбранного действия для агента.
На основе получаемой в результате взаимодействия со средой агент обучается. то есть
пытается использовать полученные результаты для оптимизации своих действий.
Среда является для агента черным ящиком, то есть агент не имеет никаких
сведений о том. как устроена эта функция. Возвращаемые значения не обязательно
строго детерминированы и даже наоборот, могут быть совершенно случайными или
зависить не от текущего состояния и выбранного действия, а от фазы луны и погоды
на Марсе.
Подобный подход позволяет применять эти методы к задачам в условиях
неопределенности или задачам, для которых не построена адекватная модель.
Кроме того методы стимулируемого обучения можно применять для получения
приближенного решения в тех случаях, когда получение точного требует огромных
вычислительных ресурсов, а время получения решения более важно, чем точность.
Примером могут быть онлайн-сервисы, от которых требуется работа в реальном
времени и для которых заранее сложно рассчитать предполагаемую нагрузку,
а вычислительные ресурсы ограничены. В данной работе множества состояний
и действия будут предполагаться конечными, но возможны обобщения на более
широкие множества.