Алгоритм Q-REPS решения задачи обучения с подкреплением. - курсовая работа | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Научный руководитель: Кабанов Юрий Михайлович
Автор: Исмагилов Тимур Ринатович
Тип: Специалист
Организация, в которой проходила защита: МГУ имени М.В. Ломоносова
Кафедра: Кафедра теории вероятностей
Год защиты: 2021
Курс: 5
Аннотация: Цель работы состояла в изучении статьи “Logistic Q-Learning" Joan Bas-Serrano et al. (2020), завязанной на задаче обучения с подкреплением, а именно с марковским процессом принятия решений. Также необходимо было разобрать основные статьи, на которые опирается алгоритм и математический аппарат, предложенный в статье, и попытаться его улучшить.
Добавил в систему: Кабанов Юрий Михайлович

	ИСТИНА	Войти в систему Регистрация
	ИСТИНА ИНХС РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА