本研究は、ニューラルネットを用いた遅延強化学習の問題において、障害回避をいかに学習させるか、多数のセンサ細胞から信号が送られてくる場合にどのように処理するかの大きな2つのテーマに沿って進めてきた。 前者については、最初に、ロボットが目標物を捕らえるという問題で、障害物を一般化し、ロボットと目標物との空間的な位置関係によってロボットの動作特性を変化させた場合のシミュレーションを行った。これにより、従来のように、目的の達成にいかに近いかを表す評価関数を、それ自体の時間の2階微分値を0に近づけるという学習させるだけでは、ロボットが目標物までの最適なパスを獲得できないことが判明した。その後の解析から、試行毎に評価関数の時間変化の傾き(1階微分値)が変化し、正しい評価が行えないという状況であることがわかった。そこで、評価関数の1階微分値の時間平均を保持し、1階微分値がその値に近づくように学習を行うという方法を考案し、シミュレーションによって確認した。また、試行錯誤の方法を工夫して障害物回避に利用するという問題については、試行錯誤に用いる乱数の振幅を学習させる方法を試みたが、現在のところまだうまくいっていない。 一方、多数のセンサ細胞から信号が得られる場合について、それを統合化し、強化学習に使いやすい形に変換することを学習できないかを試みた。そして、空間の情報が時間的に滑らかであるという仮説から、多数のセンサ信号を入力とするニューラルネットの出力の時間の2階微分値を0に近づけるという学習によって、多数のセンサ信号を統合したアナログ出力を学習によって得ることを提案した。そして、網膜細胞が1次元に30個配列されている状態で、目の前を物体が単振動をしている状況でシミュレーションを行ったところ、外部から教師信号を与えることなく、学習によって、ニューラルネットの出力が物体の位置を表すようになった。
|