• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

強化学習を実問題に応用する際に重要となる報酬および罰の設計指針に関する研究

研究課題

研究課題/領域番号 13780316
研究種目

若手研究(B)

配分区分補助金
研究分野 知能情報学
研究機関大学評価・学位授与機構

研究代表者

宮崎 和光  大学評価・学位授与機, 構・学位審査研究部, 助教授 (20282866)

研究期間 (年度) 2001 – 2002
研究課題ステータス 完了 (2002年度)
配分額 *注記
2,100千円 (直接経費: 2,100千円)
2002年度: 1,000千円 (直接経費: 1,000千円)
2001年度: 1,100千円 (直接経費: 1,100千円)
キーワード強化学習 / 報酬と罰 / オセロゲーム / POMDPs / 罰回避政策形成アルゴリズム / Profit Sharing / Q-learning / マルコフ決定過程 / 罰の回避
研究概要

強化学習を実問題に応用するためには報酬および罰の設計が重要となる。現在、この問題に対峙した手法として罰回避政策形成アルゴリズム(PARP)が知られている。当初、本研究課題では、PARPを多種類の報酬および罰が存在する環境下に拡張することを進めていた。しかしその過程で、PARPが有する膨大な状態空間へは適用しづらいという欠点が無視できなくなり、この問題への対応を先行して行うこととした。
一般にPARPは、状態数の2乗のオーダーのメモリを要する。膨大な状態空間を有する多くの実問題では、このことが制約となり、学習が困難となる場合がある。そこで本研究課題では、まず初めに、状態遷移の一部が既知の離散マルコフ決定過程を対象に、状態数のオーダーのメモリで学習を可能とする手法を提案した。実問題としてオセロゲームを取り上げ提案手法の有効性を確認した。
さらにより一般的な問題に適用すべく、対象問題クラスの拡張を行った。具体的には、PARPをProfit Sharingと呼ばれる強化学習手法と適切に融合させることで、非マルコフ的環境として知られる部分観測マルコフ決定過程(POMDPs)の一部のクラスまでも学習の対象とする手法を提案した。TeamBotsと呼ばれるサッカーサーバへ適用することで提案手法の有効性を確認した。
上記の成果を踏まえ現在は、ふたつの方向で研究を進めている。ひとつは対象問題クラスのさらなる拡大である。これに関しては、現在、PARPとの融合を視野に入れつつ、Profit SharingのPOMDPs全体への拡張を行っている段階である。もうひとつは、複数種類の報酬および罰への拡張である。こちらに関しては、PARPを複数組み合わせることである程度実現可能であると考えおり、具体的なアルゴリズムならびに実装例を構築している最中である。これにより当初の目的である報酬および罰の設計指針がより明確になるものと考えている。

報告書

(2件)
  • 2002 実績報告書
  • 2001 実績報告書
  • 研究成果

    (12件)

すべて その他

すべて 文献書誌 (12件)

  • [文献書誌] 宮崎和光: "罰を回避する合理的政策の学習"人工知能学会誌. 16・2. 148-156 (2001)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] Kazuteru Miyazaki: "Reinforcement Learning for Penalty Avoiding Policy Making and its Extensions and an Applications to the Othello Game"Proceedings of the 7th International Conference on Information Systems Analysis and Cynthesis. III. 40-44 (2001)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] Kazuteru Miyazaki: "Reinforcement Learning in 2-players Games"Proceedings of the 7th International Symposium on Artificial Life and Robotics. 183-186 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] 宮崎和光: "罰回避政策形成アルゴリズムの改良とオセロゲームへの応用"人工知能学会誌. 17・5. 548-556 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] Kazuteru Miyazaki: "Reinforcement Learning for Penalty Avoiding Profit Sharing and its Application to the Soccer Game"ICONIP' 02-SEAL' 02-FSKD' 02. 335-339 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] 宮崎和光: "罰を回避するProfit Sharingの提案"第45回自動制御連合講演会. 167-170 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] 寺田賢: "マルチエージェント強化学習によるサッカーゲームにおける協調行動の学習"第45回自動制御連合講演会. 441-442 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] Kazuteru Miyazaki: "Comparison with Profit Sharing and Random Selection in POMDPs"Joint 1st International Conference on Soft Computing and Intelligent Systems. (CD-ROM(全5ページ)). (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] 宮崎和光: "POMDPs環境におけるProfit Sharingとランダム選択の理論的比較"計測自動制御学会 システム・情報部門学術講演会. (CD-ROM(全6ページ)). (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] 宮崎和光: "罰を回避する合理的政策の学習"人工知能学会誌. 15・2. 148-156 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] Kazuteru Miyazaki: "Reinforcement Learning for Penalty Avoiding Policy Making and its Extensions and an Applications to the Othello Game"Proceedings of the 7th International Conference on Information Systems Analysis and Cynthesis. III. 40-44 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] Kazuteru Miyazaki: "Reinforcement Learning in 2-players Games"Proceedings of the 7th International Symposium on Artificial Life and Robotics. 183-186 (2002)

    • 関連する報告書
      2001 実績報告書

URL: 

公開日: 2001-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi