Аннотация:Цель работы состояла в изучении статьи “Logistic Q-Learning" Joan Bas-Serrano et al. (2020), завязанной на задаче обучения с подкреплением, а именно с марковским процессом принятия решений. Также необходимо было разобрать основные статьи, на которые опирается алгоритм и математический аппарат, предложенный в статье, и попытаться его улучшить.