将来、人間と共存し、人間の代わりとなって働くようなロボットを実現するためには、固定された制御ルールを用いるだけでなく、動的に変化する環境の中で、ロボット自身が学習によって制御ルールを獲得することが要求される。そのような要求に応えるため、未知環境においてロボットに行動を獲得させる手法として注目を集めているのが強化学習である。本研究の目的は、実用化を図る上で重要となる多次元連続状態空間の問題に対して、次元圧縮可能な多変量回帰分析を用いることで汎用性の高い強化学習システムを実現することにある。平成20年度は以下の事項について検討を行った。 1.提案システムの学習性能の向上を図るため、適格度トレースを利用したアルゴリズムを導入した。改良前のものと比較を行ったところ、収束性能および学習精度を大幅に改善できることを確認した。 2.部分観測問題に対しては、現在のセンサ情報に加えて、過去のセンサ情報を利用する履歴を用いる方法に着目した。時系列情報を用いると高次の連続状態空間となるが、提案システムはある種の部分観測問題に対してうまく学習可能であることを検証した。 3.移動ロボットのナビゲーション問題において、距離センサ7次元とロボット位置・姿勢3次元の合計10次元の高次元連続状態空間を構成し、学習実験を行った。提案システムを利用することで、これらの問題においてもうまく学習が行われることを確認した。
|