2017 Fiscal Year Annual Research Report
Developing a theory of deep reinforcement learning equipped with bounded rationality
Project/Area Number |
17H04696
|
Research Institution | Tokyo Denki University |
Principal Investigator |
高橋 達二 東京電機大学, 理工学部, 准教授 (00514514)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 満足化 / 模倣学習 / 社会的満足化 / 判定問題 / 社会的学習 |
Outline of Annual Research Achievements |
初年度の計画実施項目は 1 RSのバンディット問題での満足化性能の評価と分析、 2 RSによる最適化手法の研究、であった。また、 3 RS の強化学習への応用 4 限定合理性と満足化の新しい理論の展開も先取りで行うことを検討していた。 1 については、RSが必ず満足化し、またその満足化の意味での「後悔」(期待損失)が、理論的には対数オーダーで無限に成長するのに対し、有限の上界を持つことを示すことができた。 2 については、理論的な分析は未完ながら、バンディット問題で最も優れたアルゴリズムに匹敵する性能を示しており、次年度以降分析を進める。 3 は満足化方策を単一状態の強化学習タスクと言えるバンディット問題から一般的な強化学習に適用できるよう、部分観測的な場合と環境が非定常に変化する場合を扱った他、報酬が時間経過により減衰する場合、報酬が確率的に与えられる場合、時間経過により負の報酬が与えられる場合についても研究を行った。 4 では、人間の様々な認知的・物理的制約の下での巧みな適応を可能とする一つの大きな要因である、世界の因果モデルへの縮約に関し、限られたデータからの因果関係の推論に関して研究を進め、イギリスで出版予定の書籍を共同執筆した他、国内学会と国際学会での発表を行った。また、限られたデータからの対応関係の学習に関し、同様に国際学会での発表を行った。限られたデータと不確実性の下での推論と主観確率論理に関しても国際共同研究を行い、論文を投稿中である。さらに、限定合理性と満足化の新しい理論の展開に関して大きな進展があった。これについては【今後の研究の推進方策】で触れる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究実績の概要で述べた4点に関し、当初の計画以上の進展があり、次年度以降の研究項目も進めている。また、予期しない方向での理論的な進展もあった。
|
Strategy for Future Research Activity |
初年度は研究実績の概要で述べた4点に関し、当初の期待以上の成功を収めた。 2018年度は、国際ジャーナルや国際会議への投稿を増やしていく。 本研究テーマは、高性能なアルゴリズムの開発や応用というよりも、限定合理性の理論の現代的な展開が一番の目標である。これに関し、初年度では、満足化を行う価値関数であるRSの強化学習への一般化を通じて、人間や動物の集団における社会的学習(結果の模倣: emulation)と、動物の個体におけるリスク感受性を備えた意思決定・学習、また行動経済学のプロスペクト理論やフレーミング効果との関連が明らかになってきた。そして計算理論の観点からは、強化学習の、最適制御や動的計画法などの最適化手法というよりも、判定問題の観点からの見直しを可能とするアルゴリズムを完成しつつある。そのため、認知科学的にも工学的にも研究の重要性が増しているため、当初計画した項目はもちろんのこと、より基礎的な研究も行っていく。
|