• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2010 年度 実績報告書

経験強化型学習XoLに関する発展的研究

研究課題

研究課題/領域番号 22500143
研究機関独立行政法人大学評価・学位授与機構

研究代表者

宮崎 和光  独立行政法人大学評価・学位授与機構, 学位審査研究部, 准教授 (20282866)

キーワード強化学習 / 機械学習 / 知能機械 / エージェント / 経験強化型学習
研究概要

平成22年度においては、当初の予定通り、連続入出力に対応したXoLを満たす手法の提案を行った。当該研究成果は、国際会議(Miyazaki, K., The Penalty Avoiding Rational Policy Making algorithm in Continuous Action Spaces, 11th International Conference on Intelligent Data Engineering and Automated Learning, pp.178-185, 2010)において発表を行った。
そこでは、2007年に提案した連続入力に対応した罰回避政策形成アルゴリズム(PARP)(Miyazaki, K. and Kobayashi, S., A Reinforcement Learning System for Penalty Avoiding in Continuous State Spaces, Journal of Advanced Computational Intelligence and Intelligent Informatics, Vol.11, No.6, pp.668-676, 2007)に対し、連続行動に適した独自の行動選択方法を組み合わせることで、多様な行動の生成を可能にした。また、倒立振子の振り上げ安定化問題に適用することで、提案手法の有効性を確認した。
このことは、報酬と罰が各々高々1種類の場合のXoLの基本的手法が確立されたことを意味する。また、当該研究成果は、平成23年度以降に行う予定である「複数種類の報酬と罰への対応」「XoLの応用例の探求」「報酬と罰の設計指針の確立」等の研究の進展に大きく寄与するものであると考える。

  • 研究成果

    (12件)

すべて 2011 2010 その他

すべて 雑誌論文 (5件) (うち査読あり 3件) 学会発表 (5件) 図書 (1件) 備考 (1件)

  • [雑誌論文] 経験強化型学習を利用した学位授与事業のための科目分類支援システムの提案2011

    • 著者名/発表者名
      宮崎和光, 井田正明
    • 雑誌名

      第38回知能システムシンポジウム予稿集

      ページ: 123-128

  • [雑誌論文] The Penalty Avoiding Rational Policy Making algorithm in Continuous Action Spaces2010

    • 著者名/発表者名
      Miyazaki, K.
    • 雑誌名

      Proceedings of the 11th International Conference on Intelligent Data Engineering and Automated Learning

      ページ: 178-185

    • 査読あり
  • [雑誌論文] Threshold Learning in the Improved Penalty Avoiding Rational Policy Making Algorithm2010

    • 著者名/発表者名
      Miyazaki, K., Kobayashi, J., Kobayashi, H.
    • 雑誌名

      Proceedings of the SICE Annual Conference 2010

      ページ: 3240-3245

    • 査読あり
  • [雑誌論文] Automatic Tuning of Judgement Parameter in Continuous State Exploitation-oriented Learning2010

    • 著者名/発表者名
      Miyazaki, K.
    • 雑誌名

      Proceedings of the SICE Annual Conference 2010

      ページ: 3246-3249

    • 査読あり
  • [雑誌論文] マルチエージェント連続タスクへの改良型罰回避政策形成アルゴリズムの適用とサッカーロボットを用いた実験による評価2010

    • 著者名/発表者名
      伊藤昌樹, 宮崎和光, 小林博明
    • 雑誌名

      第53回自動制御連合講演会論文集

      ページ: 4

  • [学会発表] 経験強化型学習を利用した学位授与事業のための科目分類支援システムの提案2011

    • 著者名/発表者名
      宮崎和光
    • 学会等名
      第38回知能システムシンポジウム
    • 発表場所
      IS38wiki講演会(インターネット上)(大震災のため)
    • 年月日
      20110323-20110325
  • [学会発表] マルチエージェント連続タスクへの改良型罰回避政策形成アルゴリズムの適用とサッカーロボットを用いた実験による評価2010

    • 著者名/発表者名
      伊藤昌樹
    • 学会等名
      第53回自動制御連合講演会
    • 発表場所
      高知城ホール
    • 年月日
      2010-11-04
  • [学会発表] The Penalty Avoiding Rational Policy Making algorithm in Continuous Action Spaces2010

    • 著者名/発表者名
      Miyazaki, K.
    • 学会等名
      11th International Conference on Intelligent Data Engineering and Automated Learning
    • 発表場所
      University of the West of Scotland
    • 年月日
      2010-09-01
  • [学会発表] Threshold Learning in the Improved Penalty Avoiding Rational Policy Making Algorithm2010

    • 著者名/発表者名
      Miyazaki, K.
    • 学会等名
      SICE Annual Conference 2010
    • 発表場所
      Gland Hotel, Taipei, Taiwan
    • 年月日
      2010-08-21
  • [学会発表] Automatic Tuning of Judgement Parameter in Continuous State Exploitation-oriented Learning2010

    • 著者名/発表者名
      Miyazaki, K.
    • 学会等名
      SICE Annual Conference 2010
    • 発表場所
      Gland Hotel, Taipei, Taiwan
    • 年月日
      2010-08-21
  • [図書] Exploitation-oriented Learning XoL-A new approach to machine learning based on trial-and-error searches-(Chapter 15)(Multi-Agent Applications with Evolutionary Computational and Biologically Inspired Technologies : Intelligent Techniques for Ubiquity and Optimization)(Kambayashi, Y.(Ed.))2010

    • 著者名/発表者名
      Miyazaki, K.
    • 総ページ数
      267-293
    • 出版者
      IGI Global
  • [備考]

    • URL

      http://svrrd2.niad.ac.jp/faculty/teru/xol_s.html

URL: 

公開日: 2012-07-19  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi