研究概要 |
本年度はまず,リカレントニューラルネットへの乗算ニューロンの導入により,従来困難だった離散状態間遷移の学習を目指した。その際,出力ニューロンをフィードバックする構造の導入によって,離散状態遷移の学習が大きく改善されそうであることを発見した。そして,簡単な数を数えるという問題において,出力ニューロンのフィードバックの導入で学習性能が大幅に向上することを示した。 さらに,強化学習を行なう際に,従来のような階層型ではなく,リカレント型のニューラルネットを導入することにより,シミュレーションでの移動ロボットのゴール到達タスクにおいて,ゴール到達前にスイッチを踏んで,そのスイッチの種類によって2つのゴールのうちのどちらかに向かうことを求めると,スイッチを踏んでから正しいゴールに向かう行動が学習できることがわかった。また,その際に,隠れ層の中に,踏んだスイッチの種類を記憶しているニューロンが発見され,さらに,ゴールに到達しても報酬を与えないで試行を続けると,スイッチを踏みに戻るという非常に興味深い行動が観察された。また,強化学習においてニューラルネットを使うことの有用性を現実レベルの問題で確かめるために,視覚センサを搭載した四足歩行ロボットを用いて,相手のロボットに近づいて行ってキスをするというタスクの学習をさせた。そして,タスクの情報も,画像認識の方法も一切与えることなく,照明条件や背景,ロボットの向きなどによらず,実世界に近い環境において,80から90%程度の割合でタスクを成功させることができた。 強化学習による決定論的知的探索の学習の研究においては,エージェントが過去の記憶を利用した探索を学習できることを示し,かつ,探索を通して環境の情報をある程度把握できることを示した。しかしながら,以前記憶したことを忘れてしまう傾向にあることがわかった。これを解決して行くことは今後の課題である。
|