方策勾配法によるマルコフ決定過程を前提としない強化学習の理論とゲームへの応用

研究課題

研究課題/領域番号	26330419
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
研究分野	エンタテインメント・ゲーム情報学
研究機関	芝浦工業大学
研究代表者	五十嵐治一芝浦工業大学, 工学部, 教授 (80288886)
連携研究者	石原聖司東京電機大学, 理工学部, 准教授 (50351656)
研究協力者	森岡祐一山本一将
研究期間 (年度)	2014-04-01 – 2017-03-31
研究課題ステータス	完了 (2016年度)
配分額 *注記	1,950千円 (直接経費: 1,500千円、間接経費: 450千円) 2016年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2015年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2014年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
キーワード	強化学習 / 方策勾配法 / マルチエージェント / コンピュータ将棋 / ロボカップ / ソフトマックス探索 / サッカー / マルチエージェントシステム / RoboCup / ファジィ推論
研究成果の概要	本研究は強化学習の一方式である方策勾配法において、方策関数の表現法と学習方式を考案し、ゲーム分野や工学的応用への方法論を構築することを目的として理論的な研究と応用面での研究を行った。この結果、次の研究成果を得た： (1)方策勾配法の理論的な研究として、①階層化による高度な戦略の学習方式の提案、②環境ダイナミクスと行動知識の分離学習の提案、③方策としてファジィ制御ルールを用いた場合の学習方式の提案をすることができた。 (2)方策勾配法の応用面の研究として、追跡ゲーム、ロボットサッカー、コンピュータ将棋等への適用を試み、提案手法の有効性を確認することができた。

報告書

(4件)

研究成果
(14件)

すべて 2017 2016 2015 2014

すべて雑誌論文 (4件) (うち査読あり 2件、謝辞記載あり 2件、オープンアクセス 1件) 学会発表 (10件)

[雑誌論文] Hierarchical Policy Gradient Reinforcement Learning: Two-layer Model2017
- 著者名/発表者名
  Harukazu Igarashi and Seiji Ishihara
- 雑誌名
  
  The Research Reports of Shibaura Institute of Technology, Natural Sciences and Engineering
  
  巻: 60 ページ: 21-28
- DOI
  10.13140/RG.2.2.19842.89285
- 関連する報告書
  2016 実績報告書
[雑誌論文] 方策に関する知識を分離した方策こう配法2016
- 著者名/発表者名
  石原聖司，五十嵐治一
- 雑誌名
  
  電気学会論文誌Ｃ（電子・情報・システム部門誌）
  
  巻: 136 号: 3 ページ: 282-289
- DOI
  10.1541/ieejeiss.136.282
- NAID
  130005132276
- ISSN
  0385-4221, 1348-8155
- 関連する報告書
  2015 実施状況報告書
- 査読あり / 謝辞記載あり
[雑誌論文] Learning Positional Evaluation Functions without Using Databases of Game Records between Professional Shogi Players2016
- 著者名/発表者名
  Harukazu Igarashi, Yuichi Morioka, Kazumasa Yamamoto
- 雑誌名
  
  The Research Reports of Shibaura Institute of Technology, Natural Sciences and Engineering
  
  巻: 59 ページ: 39-47
- DOI
  10.13140/RG.2.1.4797.2242
- 関連する報告書
  2015 実施状況報告書
- 謝辞記載あり
[雑誌論文] ファジイ制御ルールにより表現された方策を持つ方策勾配法： RoboCup小型リーグにおける行動決定2014
- 著者名/発表者名
  杉本将也，五十嵐治一，石原聖司，田中一基
- 雑誌名
  
  知能と情報
  
  巻: 26 号: 3 ページ: 647-657
- DOI
  10.3156/jsoft.26.647
- NAID
  130004491924
- ISSN
  1347-7986, 1881-7203
- 関連する報告書
  2014 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] 局面評価関数を用いたサッカーエージェントの移動先決定2016
- 著者名/発表者名
  大内斉，五十嵐治一
- 学会等名
  情報処理学会
- 発表場所
  箱根セミナーハウス（神奈川県足柄下郡箱根町仙石原845）
- 年月日
  2016-11-04
- 関連する報告書
  2016 実績報告書
[学会発表] ソフトマックス戦略と実現確率による深さ制御を用いたシンプルなゲーム木探索方式2016
- 著者名/発表者名
  原悠一，五十嵐治一，森岡祐一，山本一将
- 学会等名
  情報処理学会
- 発表場所
  箱根セミナーハウス（神奈川県足柄下郡箱根町仙石原845）
- 年月日
  2016-11-04
- 関連する報告書
  2016 実績報告書
[学会発表] サッカーエージェントにおけるスルーパスの強化学習2016
- 著者名/発表者名
  田川諒，五十嵐治一
- 学会等名
  電子情報通信学会ほか
- 発表場所
  富山大学(富山県富山市)
- 年月日
  2016-09-07
- 関連する報告書
  2016 実績報告書
[学会発表] サッカーエージェントにおける局面評価関数の強化学習2015
- 著者名/発表者名
  田川諒，五十嵐治一
- 学会等名
  情報処理学会第20回ゲーム・プログラミング・ワークショップ
- 発表場所
  軽井沢
- 年月日
  2015-11-06
- 関連する報告書
  2015 実施状況報告書
[学会発表] コンピュータ将棋における方策勾配を用いた局面評価関数の教師付学習2015
- 著者名/発表者名
  大串明，山本一将，森岡祐一，五十嵐治一
- 学会等名
  情報処理学会第20回ゲーム・プログラミング・ワークショップ
- 発表場所
  軽井沢
- 年月日
  2015-11-06
- 関連する報告書
  2015 実施状況報告書
[学会発表] プロ棋士の棋譜データベースを用いない局面評価関数の学習法についての考察2015
- 著者名/発表者名
  五十嵐治一，森岡祐一，山本一将
- 学会等名
  情報処理学会第34回ゲーム情報学研究発表会
- 発表場所
  福岡
- 年月日
  2015-07-04
- 関連する報告書
  2015 実施状況報告書
[学会発表] Policy Gradient Method Using Fuzzy Controller in Policies and Its Application2014
- 著者名/発表者名
  Noor Imanina N.H. , Harukazu Igarashi
- 学会等名
  The International Conference on Artificial Intelligence and Pattern Recognition
- 発表場所
  Kuala Lumpur, Malaysia
- 年月日
  2014-11-17 – 2014-11-19
- 関連する報告書
  2014 実施状況報告書
[学会発表] 方策勾配法による探索制御の一考察2014
- 著者名/発表者名
  五十嵐治一，森岡祐一，山本一将
- 学会等名
  第19回ゲーム・プログラミング　ワークショップ2014
- 発表場所
  箱根，神奈川県
- 年月日
  2014-11-07 – 2014-11-09
- 関連する報告書
  2014 実施状況報告書
[学会発表] agent2d のチェーンアクションにおける評価関数の重み調整2014
- 著者名/発表者名
  田川諒，谷川俊策，五十嵐治一
- 学会等名
  第13回情報科学技術フォーラム(FIT2014)
- 発表場所
  筑波，茨城県
- 年月日
  2014-09-03
- 関連する報告書
  2014 実施状況報告書
[学会発表] RoboCupサッカーシミュレーションリーグ2Dにおける局面評価関数の設計と学習2014
- 著者名/発表者名
  谷川俊策，五十嵐治一，石原聖司
- 学会等名
  ロボティクス・メカトロニクス講演会2014
- 発表場所
  富山，富山県
- 年月日
  2014-05-26
- 関連する報告書
  2014 実施状況報告書

方策勾配法によるマルコフ決定過程を前提としない強化学習の理論とゲームへの応用

研究代表者

五十嵐 治一 芝浦工業大学, 工学部, 教授 (80288886)

1,950千円 (直接経費: 1,500千円、間接経費: 450千円)

報告書

研究成果

[雑誌論文] Hierarchical Policy Gradient Reinforcement Learning: Two-layer Model2017

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] 方策に関する知識を分離した方策こう配法2016

著者名/発表者名

雑誌名

DOI

NAID

ISSN

関連する報告書

[雑誌論文] Learning Positional Evaluation Functions without Using Databases of Game Records between Professional Shogi Players2016

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] ファジイ制御ルールにより表現された方策を持つ方策勾配法： RoboCup小型リーグにおける行動決定2014

著者名/発表者名

雑誌名

DOI

NAID

ISSN

関連する報告書

[学会発表] 局面評価関数を用いたサッカーエージェントの移動先決定2016

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] ソフトマックス戦略と実現確率による深さ制御を用いたシンプルなゲーム木探索方式2016

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] サッカーエージェントにおけるスルーパスの強化学習2016

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] サッカーエージェントにおける局面評価関数の強化学習2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] コンピュータ将棋における方策勾配を用いた局面評価関数の教師付学習2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] プロ棋士の棋譜データベースを用いない局面評価関数の学習法についての考察2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Policy Gradient Method Using Fuzzy Controller in Policies and Its Application2014

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 方策勾配法による探索制御の一考察2014

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] agent2d のチェーンアクションにおける評価関数の重み調整2014

著者名/発表者名

五十嵐治一芝浦工業大学, 工学部, 教授 (80288886)