森村哲郎
生駒 : 奈良先端科学技術大学院大学, 2008.3
1
R006153
2
禁帯出
R006298
2008
方策勾配に基づく効率の良い課題非依存な強化学習法
奈良先端科学技術大学院大学情報科学研究科博士論文 ; 2008年3月
学位記番号: 博第742号
報告番号: 甲第742号
学位授与年月日: 2008/03/24
学位の種類: 博士(工学)
学生番号: 0561034
英語 (eng)
森村, 哲郎 (モリムラ, テツロウ)
Reinforcement learning
Markov decision process
Policy gradient method
Natural gradient method
derivative of state-stationary distribution
Reinforcement learningMarkov decision processPolicy gradient methodNatural gradient methodderivative of state-stationary distribution