• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2007 年度 実績報告書

次元圧縮のできる多変量解析手法を用いた強化学習エージェントの性能解析

研究課題

研究課題/領域番号 19500172
研究機関八戸工業高等専門学校

研究代表者

釜谷 博行  八戸工業高等専門学校, 電気情報工学科, 准教授 (70224657)

研究分担者 工藤 憲昌  独立行政法人国立高等専門学校機構八戸工業高等専門学校, 電気情報工学科, 教授 (40270194)
キーワード機械学習 / エージェント / 統計数学 / ハイパフォーマンス・コンピューティング / 知能ロボティクス
研究概要

将来、人間と共存し、人間の代わりとなって働くようなロボットを実現するためには、固定された制御ルールを用いるだけでなく、動的に変化する環境の中で、ロボット自身が学習によって制御ルールを獲得することが要求される。そのような要求に応えるため、未知環境においてロボットに行動を獲得させる手法として注目を集めているのが強化学習である。本研究の目的は、実用化を図る上で重要となる多次元連続状態空間の問題に対して、次元圧縮可能な多変量回帰分析を用いることで、膨大な情報の中から報酬に結び付く重要な情報のみを自律的に抽出できる汎用性の高い強化学習システムを実現することにある。
まず、多変量解析を行う上で必要なサンプルデータの効率的な取得方法について検討した。状態空間のサンプルデータを学習前に格子状に予め用意しておく方法では、多次元空間を扱う場合にメモリ不足によりプログラムを実行できないなどの問題が発生する。そこで、学習時にある条件を満たした場合にオンラインでサンプルデータを適宜追加していく方法について考案するとともに、このときのQ値の更新則についても検討した。
つぎに、学習を成功する上で重要なパラメータはどれか、また、パラメータの値はどのように決めるべきかなどの指標を獲得することを目的として、学習システム内の各種パラメータを変更した場合の学習性能について調べた。その結果、パラメータの中には学習に大きく影響を及ぼすものがあることを確認するとともに、これらの値を適切に決めることが重要であるということが分かった。
また、多変量解析における計算量を実用レベルまで下げ、実システム制御時のリアルタイム性を確保するため、Linuxベースの並列計算機を用いて実行環境を構築した。また、並列計算を行うためOpenMPに準拠したコンパイラを新たに導入し、提案システムを並列計算機上に実装した。その結果、実時間性能が向上することを確認した。

  • 研究成果

    (2件)

すべて 2007

すべて 雑誌論文 (1件) 学会発表 (1件)

  • [雑誌論文] 連続状態空間のための強化学習アルゴリズム2007

    • 著者名/発表者名
      釜谷博行, 阿部健一
    • 雑誌名

      八戸工業高等専門学校紀要 42

      ページ: 65-68

  • [学会発表] 適応周波数推定法の検討とその一応用2007

    • 著者名/発表者名
      工藤憲昌, 田所嘉昭
    • 学会等名
      計測自動制御学会東北支部第236回研究集会
    • 発表場所
      八戸工業大学
    • 年月日
      2007-06-15

URL: 

公開日: 2010-02-04   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi