2014 年度実施状況報告書

方策勾配法によるマルコフ決定過程を前提としない強化学習の理論とゲームへの応用

研究課題

研究課題/領域番号	26330419
研究機関	芝浦工業大学
研究代表者	五十嵐治一芝浦工業大学, 工学部, 教授 (80288886)
研究期間 (年度)	2014-04-01 – 2017-03-31
キーワード	強化学習 / 方策勾配法 / RoboCup / コンピュータ将棋 / ファジィ推論
研究実績の概要	本研究は、方策勾配法における方策関数の表現法と学習方式を考案し、ゲーム分野や工学的応用への方法論を構築することを目的としている。これを実現するために次の研究を行う。１）方策勾配法の理論的な研究：階層化による高度な戦略の学習、環境ダイナミクスと行動知識の分離学習（転移学習と関連）、方策として様々な形態の数理モデル（ファジィルール、ベイズネット等）の適用方式の考案。２）方策勾配法の応用面の研究：追跡問題（追跡ゲーム）、ロボットサッカー、コンピュータ将棋等への適用である。 2014年度は、１）ではファジイ制御ルールにより表現された方策を持つ方策勾配法の応用として、RoboCup小型リーグにおける行動決定をテーマに研究を行い、論文にまとめた。本方法は、ファジィ推論でしばしば用いられるMAX-MIN演算を積和演算に置き換えることにより、メンバーシップ関数中のパラメータを期待報酬の最大勾配方向へ更新して行くという手法である。また、本テーマに関連した周辺研究を国際学会で発表した。２）では、RoboCupシミュレーションリーグ２D部門のサッカーシュミレータを用いて、サッカーにおける局面評価関数の設計とその重みパラメータを方策勾配法で学習する実験について研究発表を2件行った。さらに、コンピュータ将棋における探索制御の問題へ方策勾配法を適用する方式を提案し、ゲームプログラミング・ワークショップで研究発表を行った。本研究では、コンピュータ将棋において探索木の枝を成長させる際に、その枝までの探索経路に沿った指し手の累積的な選択確率の値を基に探索制御を行う方法を提案した。このときの指し手の選択には、将棋の指し手に関するヒューリスティクスを組み込んだシミュレーション方策を使用し、このシミュレーション方策中のパラメータを方策勾配法により学習する。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由理論の構築においてはおおむね順調に進んでいる。実験面においては、院生の人数などマンパワー上の問題もあり、計画よりもやや遅れているきらいがある。
今後の研究の推進方策	今後は実験面での検証に重点を置いていきたい。

研究成果

(5件)

すべて 2014

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (4件)

[雑誌論文] ファジイ制御ルールにより表現された方策を持つ方策勾配法：RoboCup小型リーグにおける行動決定2014
- 著者名/発表者名
  杉本将也，五十嵐治一，石原聖司，田中一基
- 雑誌名
  
  知能と情報
  
  巻: 26 ページ: 647-657
- DOI
  10.3156/jsoft.26.647
- 査読あり / オープンアクセス
[学会発表] Policy Gradient Method Using Fuzzy Controller in Policies and Its Application2014
- 著者名/発表者名
  Noor Imanina N.H. , Harukazu Igarashi
- 学会等名
  The International Conference on Artificial Intelligence and Pattern Recognition
- 発表場所
  Kuala Lumpur, Malaysia
- 年月日
  2014-11-17 – 2014-11-19
[学会発表] 方策勾配法による探索制御の一考察2014
- 著者名/発表者名
  五十嵐治一，森岡祐一，山本一将
- 学会等名
  第19回ゲーム・プログラミング　ワークショップ2014
- 発表場所
  箱根，神奈川県
- 年月日
  2014-11-07 – 2014-11-09
[学会発表] agent2d のチェーンアクションにおける評価関数の重み調整2014
- 著者名/発表者名
  田川諒，谷川俊策，五十嵐治一
- 学会等名
  第13回情報科学技術フォーラム(FIT2014)
- 発表場所
  筑波，茨城県
- 年月日
  2014-09-03 – 2014-09-03
[学会発表] RoboCupサッカーシミュレーションリーグ2Dにおける局面評価関数の設計と学習2014
- 著者名/発表者名
  谷川俊策，五十嵐治一，石原聖司
- 学会等名
  ロボティクス・メカトロニクス講演会2014
- 発表場所
  富山，富山県
- 年月日
  2014-05-26 – 2014-05-26

2014 年度 実施状況報告書

方策勾配法によるマルコフ決定過程を前提としない強化学習の理論とゲームへの応用

研究代表者

五十嵐 治一 芝浦工業大学, 工学部, 教授 (80288886)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] ファジイ制御ルールにより表現された方策を持つ方策勾配法：RoboCup小型リーグにおける行動決定2014

著者名/発表者名

雑誌名

DOI

[学会発表] Policy Gradient Method Using Fuzzy Controller in Policies and Its Application2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 方策勾配法による探索制御の一考察2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] agent2d のチェーンアクションにおける評価関数の重み調整2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] RoboCupサッカーシミュレーションリーグ2Dにおける局面評価関数の設計と学習2014

著者名/発表者名

学会等名

発表場所

年月日

2014 年度実施状況報告書

五十嵐治一芝浦工業大学, 工学部, 教授 (80288886)