2020 Fiscal Year Annual Research Report
Establishment of Chaos-based Dynamic Reinforcement Learning as Taking an Essential Technology to Realize Emergence of Thinking in Advance
Project/Area Number |
20K11993
|
Research Institution | Oita University |
Principal Investigator |
柴田 克成 大分大学, 理工学部, 教授 (10260522)
|
Project Period (FY) |
2020-04-01 – 2021-03-31
|
Keywords | ダイナミック強化学習 / 感度 / 感度調整学習(SAL) / エッジオブカオス / カオス性 |
Outline of Annual Research Achievements |
(本研究は、研究代表者の退職に伴う資格喪失のため、やむを得ず1年で廃止となった。この実績は廃止までの1年分のものである) 本研究は大きく分けて3つの研究を行った。 【1】感度調整学習(SAL)のまとめ 本研究の主題「カオスベースダイナミック強化学習」の基盤となる「感度調整学習(SAS)」について、各ニューロンでの感度調整でネットワーク全体のダイナミクスを調整できることの理論的背景を整理するとともに、カオスダイナミクスの生成および教師あり学習との併用についての系統的なシミュレーションを行い、論文に投稿した。 【2】ダイナミック強化学習の基礎研究 強化学習に基づいて各ニューロンで感度を変化させることで、ネットワークダイナミクスを直接学習させるダイナミック強化学習の枠組みで、簡易視覚センサを用いて、エージェントが簡単な物体到達タスクを学習できることを示した。さらに、物体との距離および角度の情報をセンサ入力とした場合でも、同様に学習できた。また、外部入力に対し、フィードバック入力の学習係数を外部入力より小さくした方が性能は良かった。想定していた学習による感度の減少はみられなかった。また、TD誤差が正の際の出力の維持拘束により、この学習係数の差のために感度が増加する場合があることがわかった。 【3】ダイナミック教師あり学習の基礎検討 ダイナミクスを直接学習させる考え方を教師あり学習にも導入できるかの基礎検討を行なった。入出力に10ステップの時間差のあるEXOR問題の学習を、誤差の時間平均と現在の誤差との差に基づいて感度を変化させた。(出力ニューロンは通常の誤差勾配で学習) そして、出力ニューロンの学習だけではできなかったものが、この学習を導入することで正しい出力が得られるようになった。 感度を通してダイナミクスを直接学習させるという新しい学習の枠組みがある程度動作することが確認できた。
|