2019 Fiscal Year Annual Research Report
Developing a theory of deep reinforcement learning equipped with bounded rationality
Project/Area Number |
17H04696
|
Research Institution | Tokyo Denki University |
Principal Investigator |
高橋 達二 東京電機大学, 理工学部, 准教授 (00514514)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 強化学習 / 社会学習 / 動機付け / 満足化 / 教示的フィードバック / 評価的フィードバック / 対抗模倣 / 競争 |
Outline of Annual Research Achievements |
2019年度の計画実施項目は 1. 強化学習タスクでの実験と成果の執筆 2. 報酬、問題、社会性の点からの理論的分析 の二点であった。1については、 Shinriki et al., 2020 を出版したほか、強化学習への満足化のアイディアの適用を実現した研究を国内学会で発表・受賞した (佐鳥 et al., 2020)。これに関して論文を執筆中である。 2については、 Tamatsukuri & Takahashi, 2019 を6月に出版し、満足化強化学習の要となるRSモデルの基本的な性質の分析と性能の保証を行った。 RS の詳しい振る舞いについては Kamiya & Takahashi, in prep. を投稿準備中である。社会性を考慮した強化学習に関しても国内学会では発表を行っており (其田 et al., 2019 二点) 、論文を執筆中である。 報酬(評価的か弱く教示的か)、問題(最適化問題か決定問題か)、社会性(対抗模倣や競争のモデリング)に加えて、動機付けの点からも理論的分析を行った。環境から与えられる報酬は外発的動機付けと言える。それに対して、(よりリスクのある)未知の状態・行動をより試そうとする「好奇心」は内発的動機付けである。他方、外発的動機付けとしては、社会的に与えられるある基準を乗り越えようとすることが考えられる。例えば競技選手が、トップ選手の最高記録を目指す場合である。さらに、好奇心とは逆に、さらなる探索は不要といった状況によってはリスクを回避しようとし、保守的に既知の状態や選択肢に固執するのも内発的動機づけと言える。本研究で確立した満足化強化学習の枠組みにより、これら全てが統一的に扱えるようになっている。今後は、報酬、問題、社会性、そして動機付けの統一的理論と、効率的な実装を目指す。
|
Research Progress Status |
令和元年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和元年度が最終年度であるため、記入しない。
|