2007 Fiscal Year Annual Research Report

次元圧縮のできる多変量解析手法を用いた強化学習エージェントの性能解析

Research Project

Project/Area Number	19500172
Research Institution	Hachinohe National College of Technology
Principal Investigator	釜谷博行 Hachinohe National College of Technology, 電気情報工学科, 准教授 (70224657)
Co-Investigator(Kenkyū-buntansha)	工藤憲昌独立行政法人国立高等専門学校機構八戸工業高等専門学校, 電気情報工学科, 教授 (40270194)
Keywords	機械学習 / エージェント / 統計数学 / ハイパフォーマンス・コンピューティング / 知能ロボティクス
Research Abstract	将来、人間と共存し、人間の代わりとなって働くようなロボットを実現するためには、固定された制御ルールを用いるだけでなく、動的に変化する環境の中で、ロボット自身が学習によって制御ルールを獲得することが要求される。そのような要求に応えるため、未知環境においてロボットに行動を獲得させる手法として注目を集めているのが強化学習である。本研究の目的は、実用化を図る上で重要となる多次元連続状態空間の問題に対して、次元圧縮可能な多変量回帰分析を用いることで、膨大な情報の中から報酬に結び付く重要な情報のみを自律的に抽出できる汎用性の高い強化学習システムを実現することにある。まず、多変量解析を行う上で必要なサンプルデータの効率的な取得方法について検討した。状態空間のサンプルデータを学習前に格子状に予め用意しておく方法では、多次元空間を扱う場合にメモリ不足によりプログラムを実行できないなどの問題が発生する。そこで、学習時にある条件を満たした場合にオンラインでサンプルデータを適宜追加していく方法について考案するとともに、このときのQ値の更新則についても検討した。つぎに、学習を成功する上で重要なパラメータはどれか、また、パラメータの値はどのように決めるべきかなどの指標を獲得することを目的として、学習システム内の各種パラメータを変更した場合の学習性能について調べた。その結果、パラメータの中には学習に大きく影響を及ぼすものがあることを確認するとともに、これらの値を適切に決めることが重要であるということが分かった。また、多変量解析における計算量を実用レベルまで下げ、実システム制御時のリアルタイム性を確保するため、Linuxベースの並列計算機を用いて実行環境を構築した。また、並列計算を行うためOpenMPに準拠したコンパイラを新たに導入し、提案システムを並列計算機上に実装した。その結果、実時間性能が向上することを確認した。

Research Products
(2 results)

All Journal Article (1 results) Presentation (1 results)

[Journal Article] 連続状態空間のための強化学習アルゴリズム2007
- Author(s)
  釜谷博行, 阿部健一
- Journal Title
  
  八戸工業高等専門学校紀要 42
  
  Pages: 65-68
[Presentation] 適応周波数推定法の検討とその一応用2007
- Author(s)
  工藤憲昌, 田所嘉昭
- Organizer
  計測自動制御学会東北支部第236回研究集会
- Place of Presentation
  八戸工業大学
- Year and Date
  2007-06-15