• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2001 年度 実績報告書

強化学習を実問題に応用する際に重要となる報酬および罰の設計指針に関する研究

研究課題

研究課題/領域番号 13780316
研究種目

奨励研究(A)

研究機関大学評価・学位授与機構

研究代表者

宮崎 和光  大学評価・学位授与機, 構・学位審査研究部, 助教授 (20282866)

キーワード強化学習 / 報酬と罰 / 罰の回避 / オセロゲーム / 罰回避政策形成アルゴリズム / Profit Sharing / Q-learning / マルコフ決定過程
研究概要

今年度は、まず初めに、これまでに提案していた「罰回避政策形成アルゴリズム」をオセロゲームに適用することを行った。一般に、ゲーム問題は離散マルコフ決定過程の問題として記述されるが、そこでは、必ずしも状態遷移確率を同定し最適性を保証する必要はなく、負けないこと、すなわち罰の回避が大前提となる場合が多い。この性質によりゲーム問題は、罰回避政策形成アルゴリズムに適した問題領域であると言えるが、適切な学習を保証するためには、過去に経験したすべてのルールと状態遷移先の対を記憶し続けなければならない。膨大な状態空間を持つゲーム問題等では、この制約を緩和する手法が重要となる。
今年度本研究では、罰回避政策形成アルゴリズムにおいて記憶量を節約するために、状態遷移の一部が既知の離散マルコフ決定過程環境を対象に、罰を得る可能性のある状態のみを記憶し少ないメモリで学習を進行させる手法を提案した。さらに、膨大な状態空間を効率よく探索するために、既存知識を制約条件として罰回避政策形成アルゴリズムに組み込む方法を提案した。提案手法の有効性を、代表的な探索強化型対戦オセロプログラムであるKITTYとの対戦を通じ確認した。
さらに現在は、拡張された罰回避政策形成アルゴリズムを、TeamBotsと呼ばれるサッカーサーバへ適用し始めている。一般に、本問題は、複数種類の報酬および罰が存在するマルチエージェント問題として定式化される。本手法をこのような問題領域へ適用するために、まず初めに複数種類の報酬および罰が存在する環境への拡張を行い、その後マルチエージェント環境への拡張を行う予定である。これらの結果を踏まえ、本研究の最終目的である「強化学習を実問題に応用する際の報酬および罰の設計指針」を導くことを考えている。

  • 研究成果

    (3件)

すべて その他

すべて 文献書誌 (3件)

  • [文献書誌] 宮崎和光: "罰を回避する合理的政策の学習"人工知能学会誌. 15・2. 148-156 (2001)

  • [文献書誌] Kazuteru Miyazaki: "Reinforcement Learning for Penalty Avoiding Policy Making and its Extensions and an Applications to the Othello Game"Proceedings of the 7th International Conference on Information Systems Analysis and Cynthesis. III. 40-44 (2001)

  • [文献書誌] Kazuteru Miyazaki: "Reinforcement Learning in 2-players Games"Proceedings of the 7th International Symposium on Artificial Life and Robotics. 183-186 (2002)

URL: 

公開日: 2003-04-03   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi