2014 Fiscal Year Research-status Report

方策勾配法によるマルコフ決定過程を前提としない強化学習の理論とゲームへの応用

Research Project

Project/Area Number	26330419
Research Institution	Shibaura Institute of Technology
Principal Investigator	五十嵐治一芝浦工業大学, 工学部, 教授 (80288886)
Project Period (FY)	2014-04-01 – 2017-03-31
Keywords	強化学習 / 方策勾配法 / RoboCup / コンピュータ将棋 / ファジィ推論
Outline of Annual Research Achievements	本研究は、方策勾配法における方策関数の表現法と学習方式を考案し、ゲーム分野や工学的応用への方法論を構築することを目的としている。これを実現するために次の研究を行う。１）方策勾配法の理論的な研究：階層化による高度な戦略の学習、環境ダイナミクスと行動知識の分離学習（転移学習と関連）、方策として様々な形態の数理モデル（ファジィルール、ベイズネット等）の適用方式の考案。２）方策勾配法の応用面の研究：追跡問題（追跡ゲーム）、ロボットサッカー、コンピュータ将棋等への適用である。 2014年度は、１）ではファジイ制御ルールにより表現された方策を持つ方策勾配法の応用として、RoboCup小型リーグにおける行動決定をテーマに研究を行い、論文にまとめた。本方法は、ファジィ推論でしばしば用いられるMAX-MIN演算を積和演算に置き換えることにより、メンバーシップ関数中のパラメータを期待報酬の最大勾配方向へ更新して行くという手法である。また、本テーマに関連した周辺研究を国際学会で発表した。２）では、RoboCupシミュレーションリーグ２D部門のサッカーシュミレータを用いて、サッカーにおける局面評価関数の設計とその重みパラメータを方策勾配法で学習する実験について研究発表を2件行った。さらに、コンピュータ将棋における探索制御の問題へ方策勾配法を適用する方式を提案し、ゲームプログラミング・ワークショップで研究発表を行った。本研究では、コンピュータ将棋において探索木の枝を成長させる際に、その枝までの探索経路に沿った指し手の累積的な選択確率の値を基に探索制御を行う方法を提案した。このときの指し手の選択には、将棋の指し手に関するヒューリスティクスを組み込んだシミュレーション方策を使用し、このシミュレーション方策中のパラメータを方策勾配法により学習する。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 理論の構築においてはおおむね順調に進んでいる。実験面においては、院生の人数などマンパワー上の問題もあり、計画よりもやや遅れているきらいがある。
Strategy for Future Research Activity	今後は実験面での検証に重点を置いていきたい。

Research Products
(5 results)

All 2014

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (4 results)

[Journal Article] ファジイ制御ルールにより表現された方策を持つ方策勾配法：RoboCup小型リーグにおける行動決定2014
- Author(s)
  杉本将也，五十嵐治一，石原聖司，田中一基
- Journal Title
  
  知能と情報
  
  Volume: 26 Pages: 647-657
- DOI
  10.3156/jsoft.26.647
- Peer Reviewed / Open Access
[Presentation] Policy Gradient Method Using Fuzzy Controller in Policies and Its Application2014
- Author(s)
  Noor Imanina N.H. , Harukazu Igarashi
- Organizer
  The International Conference on Artificial Intelligence and Pattern Recognition
- Place of Presentation
  Kuala Lumpur, Malaysia
- Year and Date
  2014-11-17 – 2014-11-19
[Presentation] 方策勾配法による探索制御の一考察2014
- Author(s)
  五十嵐治一，森岡祐一，山本一将
- Organizer
  第19回ゲーム・プログラミング　ワークショップ2014
- Place of Presentation
  箱根，神奈川県
- Year and Date
  2014-11-07 – 2014-11-09
[Presentation] agent2d のチェーンアクションにおける評価関数の重み調整2014
- Author(s)
  田川諒，谷川俊策，五十嵐治一
- Organizer
  第13回情報科学技術フォーラム(FIT2014)
- Place of Presentation
  筑波，茨城県
- Year and Date
  2014-09-03 – 2014-09-03
[Presentation] RoboCupサッカーシミュレーションリーグ2Dにおける局面評価関数の設計と学習2014
- Author(s)
  谷川俊策，五十嵐治一，石原聖司
- Organizer
  ロボティクス・メカトロニクス講演会2014
- Place of Presentation
  富山，富山県
- Year and Date
  2014-05-26 – 2014-05-26

2014 Fiscal Year Research-status Report

方策勾配法によるマルコフ決定過程を前提としない強化学習の理論とゲームへの応用

Principal Investigator

五十嵐 治一 芝浦工業大学, 工学部, 教授 (80288886)

Current Status of Research Progress

Reason

Research Products

[Journal Article] ファジイ制御ルールにより表現された方策を持つ方策勾配法：RoboCup小型リーグにおける行動決定2014

Author(s)

Journal Title

DOI

[Presentation] Policy Gradient Method Using Fuzzy Controller in Policies and Its Application2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 方策勾配法による探索制御の一考察2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] agent2d のチェーンアクションにおける評価関数の重み調整2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] RoboCupサッカーシミュレーションリーグ2Dにおける局面評価関数の設計と学習2014

Author(s)

Organizer

Place of Presentation

Year and Date

五十嵐治一芝浦工業大学, 工学部, 教授 (80288886)