2015 年度実施状況報告書

方策勾配法によるマルコフ決定過程を前提としない強化学習の理論とゲームへの応用

研究課題

研究課題/領域番号	26330419
研究機関	芝浦工業大学
研究代表者	五十嵐治一芝浦工業大学, 工学部, 教授 (80288886)
研究期間 (年度)	2014-04-01 – 2017-03-31
キーワード	強化学習 / 方策勾配法 / コンピュータ将棋 / ロボカップ / サッカー / マルチエージェントシステム
研究実績の概要	本研究プロジェクトは、方策勾配法における方策関数の表現法と学習方式を考案し、ゲーム分野や工学的応用への方法論を構築することを目的としている。これを実現するために次の研究を行う。１）方策勾配法の理論的な研究：階層化による高度な戦略の学習、環境ダイナミクスと行動知識の分離学習（転移学習と関連）、方策として様々な形態の数理モデル（ファジィルール、ベイズネット等）の適用方式の考案。２）方策勾配法の応用面の研究：追跡問題（追跡ゲーム）、ロボットサッカー、コンピュータ将棋等への適用である。 2015年度は、１）では、転移学習に関連して、方策に関する知識を環境ダイナミクスと行動知識に分離した方策こう配法の理論と実験結果をまとめ、論文誌に投稿した結果、掲載された。２）では、RoboCupシミュレーションリーグ２D部門のサッカーシュミレータを用いて、サッカーにおける局面評価関数の設計とその重みパラメータを方策勾配法で学習する実験について研究発表を1件行った（ゲームプログラミング・ワークショップGPW2015）。さらに、コンピュータ将棋において、プロ棋士の棋譜データベースを用いない局面評価関数の学習法についての考察をまとめ、情報処理学会のゲーム情報学研究会で発表した。さらにその内容を英訳し、芝浦工業大学研究報告において発表した。また、方策勾配を用いた教師あり学習法を提案し、実験結果とともにGPW2015において研究発表を行った。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由理論面においてはおおむね順調に進んでいる。しかし、実験面では大学院生の数などマンパワーの点でやや不十分であるため、やや遅れている嫌いがある。
今後の研究の推進方策	今後は実験面の遅れを取り戻すためにプログラムの実装面にも注力したい。特にコンピュータ将棋のおいて、従来のmini-max法あるいはαβ法ではなく、softmax法によるマルチエージェントシステム的な探索法の研究と実装を進めて行く予定である。この方法は並列処理と相性が良く、高速化が期待できる。また、この探索法での局面評価関数の学習や探索深さの制御法の学習、さらにはプロ棋士の棋譜データベースを用いない学習法の確立へと研究を進めていく予定である。

研究成果
(5件)

すべて 2016 2015

すべて雑誌論文 (2件) (うち査読あり 1件、謝辞記載あり 2件) 学会発表 (3件)

[雑誌論文] 方策に関する知識を分離した方策こう配法―環境ダイナミクスと行動価値による方策表現―2016
- 著者名/発表者名
  石原聖司，五十嵐治一
- 雑誌名
  
  電気学会論文誌C
  
  巻: 136 ページ: 282-289
- DOI
  10.1541/ieejeiss.136.282
- 査読あり / 謝辞記載あり
[雑誌論文] Learning Positional Evaluation Functions without Using Databases of Game Records between Professional Shogi Players2016
- 著者名/発表者名
  Harukazu Igarashi, Yuichi Morioka, Kazumasa Yamamoto
- 雑誌名
  
  The Research Reports of Shibaura Institute of Technology, Natural Sciences and Engineering
  
  巻: 59 ページ: 39-47
- DOI
  10.13140/RG.2.1.4797.2242
- 謝辞記載あり
[学会発表] サッカーエージェントにおける局面評価関数の強化学習2015
- 著者名/発表者名
  田川諒，五十嵐治一
- 学会等名
  情報処理学会第20回ゲーム・プログラミング・ワークショップ
- 発表場所
  軽井沢
- 年月日
  2015-11-06 – 2015-11-08
[学会発表] コンピュータ将棋における方策勾配を用いた局面評価関数の教師付学習2015
- 著者名/発表者名
  大串明，山本一将，森岡祐一，五十嵐治一
- 学会等名
  情報処理学会第20回ゲーム・プログラミング・ワークショップ
- 発表場所
  軽井沢
- 年月日
  2015-11-06 – 2015-11-08
[学会発表] プロ棋士の棋譜データベースを用いない局面評価関数の学習法についての考察2015
- 著者名/発表者名
  五十嵐治一，森岡祐一，山本一将
- 学会等名
  情報処理学会第34回ゲーム情報学研究発表会
- 発表場所
  福岡
- 年月日
  2015-07-04 – 2015-07-04

2015 年度 実施状況報告書

方策勾配法によるマルコフ決定過程を前提としない強化学習の理論とゲームへの応用

研究代表者

五十嵐 治一 芝浦工業大学, 工学部, 教授 (80288886)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] 方策に関する知識を分離した方策こう配法―環境ダイナミクスと行動価値による方策表現―2016

著者名/発表者名

雑誌名

DOI

[雑誌論文] Learning Positional Evaluation Functions without Using Databases of Game Records between Professional Shogi Players2016

著者名/発表者名

雑誌名

DOI

[学会発表] サッカーエージェントにおける局面評価関数の強化学習2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] コンピュータ将棋における方策勾配を用いた局面評価関数の教師付学習2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] プロ棋士の棋譜データベースを用いない局面評価関数の学習法についての考察2015

著者名/発表者名

学会等名

発表場所

年月日

2015 年度実施状況報告書

五十嵐治一芝浦工業大学, 工学部, 教授 (80288886)