2016 Fiscal Year Annual Research Report

Theoretical research of the policy gradient reinforcement learning without Markov properties and its application to games

Research Project

Project/Area Number	26330419
Research Institution	Shibaura Institute of Technology
Principal Investigator	五十嵐治一芝浦工業大学, 工学部, 教授 (80288886)
Project Period (FY)	2014-04-01 – 2017-03-31
Keywords	強化学習 / 方策勾配法 / マルチエージェント / コンピュータ将棋 / ロボカップ / ソフトマックス探索
Outline of Annual Research Achievements	本研究は、方策勾配法における方策関数の表現法と学習方式を考案し、ゲーム分野や工学的応用への方法論を構築することを目的としている。これを実現するために次の研究を行う。１）方策勾配法の理論的な研究：階層化による高度な戦略の学習、環境ダイナミクスと行動知識の分離学習（転移学習と関連）、方策として様々な形態の数理モデル（ファジィルール、ベイズネット等）の適用方式の考案。２）方策勾配法の応用面の研究：追跡問題（追跡ゲーム）、ロボットサッカー、コンピュータ将棋等への適用である。 2016年度は、１）では、階層化モデルを用いた強化学習理論を英文でまとめ、芝浦工業大学研究報告において発表した。学習則に関しても詳細な導出を記載した。２）では、サッカーエージェントにおけるスルーパスの強化学習の研究と、局面評価関数を用いたサッカーエージェントの移動先決定方式の研究をまとめ、前者はFIT2016（第15回情報科学技術フォーラム）で、後者はGW2016（ゲームプログラミングワークショップ2016）において口頭発表を行った。前者の研究は、確実なスルーパスの発生頻度を高めるためにパッサーの持つ局面評価関数のパラメータを人間の与える報酬を手掛かりに学習して行く研究である。後者の研究はパスを受けるレシーバの位置取りを、レシーバの持つ局面評価関数のパラメータを同様に学習して行く研究である。また、コンピュータ将棋に関して、ソフトマックス戦略と実現確率による深さ制御を用いたシンプルなゲーム木探索の研究を行い、GPW2016で口頭発表を行った。この研究は従来のMinimax探索ではなく確率的な探索により、複雑な枝刈操作を行うことなく簡単な処理だけでゲーム木探索を行おうとする研究である。

Research Products
(4 results)

All 2017 2016

All Journal Article (1 results) Presentation (3 results)

[Journal Article] Hierarchical Policy Gradient Reinforcement Learning: Two-layer Model2017
- Author(s)
  Harukazu Igarashi and Seiji Ishihara
- Journal Title
  
  The Research Reports of Shibaura Institute of Technology, Natural Sciences and Engineering
  
  Volume: 60 Pages: 21-28
- DOI
  10.13140/RG.2.2.19842.89285
[Presentation] 局面評価関数を用いたサッカーエージェントの移動先決定2016
- Author(s)
  大内斉，五十嵐治一
- Organizer
  情報処理学会
- Place of Presentation
  箱根セミナーハウス（神奈川県足柄下郡箱根町仙石原845）
- Year and Date
  2016-11-04 – 2016-11-06
[Presentation] ソフトマックス戦略と実現確率による深さ制御を用いたシンプルなゲーム木探索方式2016
- Author(s)
  原悠一，五十嵐治一，森岡祐一，山本一将
- Organizer
  情報処理学会
- Place of Presentation
  箱根セミナーハウス（神奈川県足柄下郡箱根町仙石原845）
- Year and Date
  2016-11-04 – 2016-11-06
[Presentation] サッカーエージェントにおけるスルーパスの強化学習2016
- Author(s)
  田川諒，五十嵐治一
- Organizer
  電子情報通信学会ほか
- Place of Presentation
  富山大学(富山県富山市)
- Year and Date
  2016-09-07 – 2016-09-09

2016 Fiscal Year Annual Research Report

Theoretical research of the policy gradient reinforcement learning without Markov properties and its application to games

Principal Investigator

五十嵐 治一 芝浦工業大学, 工学部, 教授 (80288886)

Research Products

[Journal Article] Hierarchical Policy Gradient Reinforcement Learning: Two-layer Model2017

Author(s)

Journal Title

DOI

[Presentation] 局面評価関数を用いたサッカーエージェントの移動先決定2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] ソフトマックス戦略と実現確率による深さ制御を用いたシンプルなゲーム木探索方式2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] サッカーエージェントにおけるスルーパスの強化学習2016

Author(s)

Organizer

Place of Presentation

Year and Date

五十嵐治一芝浦工業大学, 工学部, 教授 (80288886)