2008 Fiscal Year Annual Research Report
ニューラルネットを用いた強化学習で,どこまで高次機能の創発が説明できるかへの挑戦
Project/Area Number |
19300070
|
Research Institution | Oita University |
Principal Investigator |
柴田 克成 Oita University, 工学部, 准教授 (10260522)
|
Keywords | 強化学習 / リカレントニューラルネット / 高次機能創発 / 離散状態遷移 / 乗算ニューロン / 決定論的知的探索 / 空間的抽象化 / 時間的抽象化 |
Research Abstract |
本研究では、論理的思考の学習による獲得の前段階として、複数離散状態遷移の学習による獲得を目指しているが、本年度は、リカレントニューラルネットに乗算ニューロンを導入することによる効果を調べた。典型的で簡単な複数の離散状態遷移を必要とするタスクである「カウンタータスク」を学習させて、導入前にはほとんど学習できなかったものが、30%の学習成功率となった。しかしながら、単純なカウンタータスクで30%程度の成功率では十分とは言えない。引き続き、学習性能向上を追究して行きたい。 また、メインで行う予定であったカメラ付き車輪移動型ロボットによる実験は、購入したロボットの不具合が多発し、それの対応に追われ、可動カメラの基礎的な学習実験以外は、残念ながら、ほとんど進展がなかった。このロボットは現在も修理中である。 さらに、強化学習とニューラルネットを組み合わせたモデルではできるが、他の手法では実現が困難な高度な空間情報の抽象化の学習能力を人間が有するかどうかを,被験者を用いた心理物理実験によって検証することを試みた。人間はすでに高度な抽象化能力を持っており、この影響を排除して0からの学習の様子を観察するようなタスク設定を行ったつもりであった。しかし、人間の既得の抽象化能力は予想以上に大きく、その影響を十分に排除できず、0からの学習の様子を観察することができなかった。今後もタスクを改良して、引き続き、観察して行く予定である。 最後に、決定論的探索の学習については、連続空間でも、リカレントニューラルネットを用いて、効率的探索方法の学習がある程度できることを示すことができた。しかしながら、連続的に変化する単純なダイナミクスしか生成することができなかった。これは、リカレントニューラルネット自身が複雑なダイナミクスを学習、生成できないという問題であると考えている。
|