Сравнительный анализ методов стимулируемого обучения - дипломная работа | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Научный руководитель: Пивоварчук Д.Г.
Автор: Буряченко С.А.
Тип: Специалист
Организация, в которой проходила защита: МГУ имени М.В. Ломоносова
Год защиты: 2011
Аннотация: Цель данной работы - исследование и реализация методов стимулируемого обучения (reinforcement learning), набора методов для решения широкого класса задач. В основе этих методов представление задачи как взаимодействие агента и среды, его окружающей. Агент A находится в одном из состояний из множества состояний S. Состояние - один из ключевых атрибутов агента и оно может меняться в ходе взаимодействия со средой, но всегда равно одному из значений из S (никакой квантовой механики). Некоторые состояния могут являться терминальными, то есть быть целью агента. Эпизодом называется процесс перехода агента из начального состояния в терминальное. Для этого агент последовательно предпринимает действия из некоторого множества действий A. Взаимодействие со средой происходит при выборе агентом действия. Оно выражается в переходе агента в следующее состояние (возможно - такое же, как было раньше) и получении некоторого отклика от среды, значения, которое можно интерпретировать как награду или штраф. Это значение характеризует то, насколько хорошим было выбранное действие в данный момент. Таким образом, среду можно представить как некую функцию, которая получает в качестве аргументов текущее состояние агента и выбранное им действие и возвращает новое состояние и значение, характеризующее полезность выбранного действия для агента. На основе получаемой в результате взаимодействия со средой агент обучается. то есть пытается использовать полученные результаты для оптимизации своих действий. Среда является для агента черным ящиком, то есть агент не имеет никаких сведений о том. как устроена эта функция. Возвращаемые значения не обязательно строго детерминированы и даже наоборот, могут быть совершенно случайными или зависить не от текущего состояния и выбранного действия, а от фазы луны и погоды на Марсе. Подобный подход позволяет применять эти методы к задачам в условиях неопределенности или задачам, для которых не построена адекватная модель. Кроме того методы стимулируемого обучения можно применять для получения приближенного решения в тех случаях, когда получение точного требует огромных вычислительных ресурсов, а время получения решения более важно, чем точность. Примером могут быть онлайн-сервисы, от которых требуется работа в реальном времени и для которых заранее сложно рассчитать предполагаемую нагрузку, а вычислительные ресурсы ограничены. В данной работе множества состояний и действия будут предполагаться конечными, но возможны обобщения на более широкие множества.
Добавил в систему: Пивоварчук Денис Геннадьевич

	ИСТИНА	Войти в систему Регистрация
	ИСТИНА ИНХС РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИСТИНА ИНХС РАН

Сравнительный анализ методов стимулируемого обучениядипломная работа (Специалист)