1995 Fiscal Year Annual Research Report
評価と動作の並列学習により障害回避を自己形成する自律能動学習機械の研究
Project/Area Number |
07780305
|
Research Institution | The University of Tokyo |
Principal Investigator |
柴田 克成 東京大学, 先端科学技術研究センター, 助手 (10260522)
|
Keywords | 強化学習 / 障害回避 / ニューラルネット / 空間情報の時間的滑らかさ / 局所センサ信号統合化学習 |
Research Abstract |
本研究は、ニューラルネットを用いた遅延強化学習の問題において、障害回避をいかに学習させるか、多数のセンサ細胞から信号が送られてくる場合にどのように処理するかの大きな2つのテーマに沿って進めてきた。 前者については、最初に、ロボットが目標物を捕らえるという問題で、障害物を一般化し、ロボットと目標物との空間的な位置関係によってロボットの動作特性を変化させた場合のシミュレーションを行った。これにより、従来のように、目的の達成にいかに近いかを表す評価関数を、それ自体の時間の2階微分値を0に近づけるという学習させるだけでは、ロボットが目標物までの最適なパスを獲得できないことが判明した。その後の解析から、試行毎に評価関数の時間変化の傾き(1階微分値)が変化し、正しい評価が行えないという状況であることがわかった。そこで、評価関数の1階微分値の時間平均を保持し、1階微分値がその値に近づくように学習を行うという方法を考案し、シミュレーションによって確認した。また、試行錯誤の方法を工夫して障害物回避に利用するという問題については、試行錯誤に用いる乱数の振幅を学習させる方法を試みたが、現在のところまだうまくいっていない。 一方、多数のセンサ細胞から信号が得られる場合について、それを統合化し、強化学習に使いやすい形に変換することを学習できないかを試みた。そして、空間の情報が時間的に滑らかであるという仮説から、多数のセンサ信号を入力とするニューラルネットの出力の時間の2階微分値を0に近づけるという学習によって、多数のセンサ信号を統合したアナログ出力を学習によって得ることを提案した。そして、網膜細胞が1次元に30個配列されている状態で、目の前を物体が単振動をしている状況でシミュレーションを行ったところ、外部から教師信号を与えることなく、学習によって、ニューラルネットの出力が物体の位置を表すようになった。
|
-
[Publications] K. Shibata et. al: "Some Learning Models of Visual System based on Local Sensory Sigral Integration Learning" Proc. of ICNN (International Coference on Neural Networks) '95 Perth. IV. 1986-1990 (1995)
-
[Publications] K. Shibata et. al: "Active Perception based on Reinforcement Learning" Proc. of WCNN (World Congress on Neural Network) '95 Washirgton. II. 170-173 (1995)
-
[Publications] 柴田克成他: "相関情報抽出ネットと空間認識能力の教師なし学習" 日本神経回路学会誌. (掲載予定). (1996)
-
[Publications] 柴田克成他: "相関情報抽出ネットによるステレオ画像上物体の奥行き情報抽出の教師なし学習" 日本神経回路学会全国大会講演論文集. 231-232 (1995)