研究課題/領域番号 |
08233204
|
研究機関 | 東京大学 |
研究代表者 |
柴田 克成 東京大学, 先端科学技術研究センター, 助手 (10260522)
|
研究分担者 |
北川 学 東京大学, 先端科学技術研究センター, 助手 (30110711)
岡部 洋一 東京大学, 先端科学技術研究センター, 教授 (50011169)
|
キーワード | 強化学習 / 視覚センサ信号 / 時間変化量一低化学習 / 時間軸スムージング学習 / 中間層ニューロン / ニューラルネット |
研究概要 |
本研究では、センサ信号統合化学習と強化学習を融合することにより、視覚センサのように、局所的な受容野しか持たない多数のセンサセルの信号から目的達成のための動作の生成法を学習によって柔軟かつ効率的に獲得することを目指した。 強化学習の中で、目的達成までの所要時間を現在の状態から予測することを学習するために、筆者らはニューラルネットを用いて予測(評価)値を計算させ、時間による2階微分値を0に近づけるという時間軸スムージング学習によってそのニューラルネットを学習させてきた。しかし、本研究を進めることにより、複数経路での評価等を考慮すると、予測値の時間の2階微分値を0にするだけでなく、時間変化量を一定化することが必要であることがわかった。さらに、時間変化量を一定にする学習において、現在の予測値を基準に、過去の予測値を学習させるという方法を採る必要があることもわかった。そして、この方法を用いることにより、結果的に、センサ信号の統合化学習を用いなくても、視覚センサ信号を直接強化学習で扱うことができることがわかった。 従来、視覚センサ信号を用いて強化学習をさせる場合には、視覚センサ信号を人間が作ったプログラムにより前処理し、複数の離散な状態空間に分割して、各状態に対する動作を学習させてきた。従って、適応性という点で問題があった。しかし、本方法を用いることにより、単純な問題の場合には、視覚センサ信号を直接入力しても学習できることがわかった。そして、その際にニューラルネットの中間層ニューロンが、局所的な受容野しか持たないセンサの信号を統合し、空間情報を効率的に表現していることがわかった。また、システムの動作特性を変えてシミュレーションすることにより、中間層ニューロンが、学習に必要な部分を拡大して表現するといった適応能力があることがわかった。
|