2018 Fiscal Year Annual Research Report
Developing a theory of deep reinforcement learning equipped with bounded rationality
Project/Area Number |
17H04696
|
Research Institution | Tokyo Denki University |
Principal Investigator |
高橋 達二 東京電機大学, 理工学部, 准教授 (00514514)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 模倣学習 / エミュレーション / 教示フィードバック / 評価フィードバック / 判定問題 |
Outline of Annual Research Achievements |
2018年度の計画実施項目は 1. 満足化の価値関数モデルであるRSのK本腕バンディット問題での基本的有効性の分析結果の論文投稿、 2. 強化学習タスク一般へのRSの適用 3. 「より現実的な環境で汎用的に働きうる強化学習理論の構築のため、演繹・帰納推論、条件文理論、確率論理学…積極的な新しい科学的知見の構築」 であった。 1については、論文が2018年度中(2019年3月)に受理されており、オンラインでは出版されている。紙媒体では2019年6月に出版される。分析に関しては、当初の狙い通りの結果が得られた。ここから、満足化という探索・行動選択法が、強化学習をある意味で教師あり学習に近づけ、そのことにより質的に容易な問題を解いているという研究アイディアを補強する論拠も得られている。 2については、強化学習タスク一般に適用できる GRC アルゴリズムの基本的な論文と、 GRC を用いて社会学習のモデリングを行う論文の二つを準備中であるほか、深層強化学習による連続的な状態空間への適用も進めている。 RSの単純さから、既存の強化学習手法との組み合わせがしやすいため、順調に進んでいる。 2の結果はいずれも国内学会ではそれぞれすでに数篇ずつの発表を行なっている。 3については、特に演繹(準機能的)推論・条件文理論・確率論理学の研究の国際共著論文を2018年9月に出版した。人間が、知覚・推論・行動におけるリソース制約の中でいかにして、世界の不確実性に立ち向かっているか、という本研究の根本的な問題について、一定の答えを得ることができた。その答えは一言で言えば、論理を確率的に変換し、実質含意ではなく条件付き確率形式で含意・条件文を扱うことで、(知覚由来の)不定な状況は不定なものとして判断を留保し、そのことで推論と記憶のリソースを合理的に節約し、実効的な行動に繋げる、というものである。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
2018年度の出版目標はクリアし、また国際共著論文も出版した。
|
Strategy for Future Research Activity |
最終年度である2019年度は、できる限り研究期間内の研究成果の出版を目指す。シミュレーションや実験では結果が揃ってきているので、研究代表者としての作業としては理論的な分析、概念的な枠組みの整備と、執筆が中心となるが、機械学習と心理学、計算理論、数学など複数分野にまたがる研究であるため、多様な分野の研究者との共同研究を今後も進めていく。
|