2009 Fiscal Year Annual Research Report
ニューラルネットを用いた強化学習で,どこまで高次機能の創発が説明できるかへの挑戦
Project/Area Number |
19300070
|
Research Institution | Oita University |
Principal Investigator |
柴田 克成 Oita University, 工学部, 准教授 (10260522)
|
Keywords | 強化学習 / リカレントニューラルネット / 高次機能創発 / 予測 / 記憶 / 意味付け / 自律学習 / 合目的性 |
Research Abstract |
メインで行う予定であったカメラ付き移動ロボットは、修理から戻って来たものの、再び不具合が生じ、実験ができなかった。そこで、急遽可動カメラを用いた実験に切り替え、学習によるシンボル・論理的思考の創発の一環として、パターンからの意味抽出の学習実験を行った。カメラに複数の矢印の画像を見せ、その画像をリカレントニューラルネットに入力して、矢印の方向にカメラを動かすと目標物が見えて報酬がもらえるという設定で強化学習を行った。学習後、ニューラルネット内部に、矢印の形によらずに向きを記憶するニューロンが創発し、かつ、矢印も目標物も見えない状態でもその情報を記憶することができるようになることが確認された。これによって、画像からその意味するところを抽出し、記憶できることがわかった。しかし、簡単な学習であるにもかかわらず、学習できなかったり、時間がかかることと、他の矢印への汎化能力に欠けるという問題点があり、今後この問題を解決して行く必要がある。 さらに、「予測の機能創発」に注目し、可変方向、可変速度で動き、壁に当たると跳ね返る物体をキャッチするタスクにおいて、途中から物体が視野から消えることがある設定で、キャッチしたときの報酬と、失敗したときの罰から学習を行った。この学習だけで、報酬や罰を与えて学習するだけで、物体をキャッチするタイミングと位置を予測できるようになった。さらに、リカレントニューラルネット内部で、物体が消える可能性がある場所の直前で、ある領域の滞在時間から速度を検出し、それを中間層ニューロン間でリレーすることでキャッチするタイミングを計るというメカニズムで予測に貢献していることを確認した。現在予測の機能が自律学習の観点から注目されているが、通常は教師あり学習で学習される。しかし、実世界において、無数の信号から何を予測させるのかという大きな問題点を解決するものとして期待される。
|