2016 Fiscal Year Annual Research Report
Theoretical research of the policy gradient reinforcement learning without Markov properties and its application to games
Project/Area Number |
26330419
|
Research Institution | Shibaura Institute of Technology |
Principal Investigator |
五十嵐 治一 芝浦工業大学, 工学部, 教授 (80288886)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 強化学習 / 方策勾配法 / マルチエージェント / コンピュータ将棋 / ロボカップ / ソフトマックス探索 |
Outline of Annual Research Achievements |
本研究は、方策勾配法における方策関数の表現法と学習方式を考案し、ゲーム分野や工学的応用への方法論を構築することを目的としている。これを実現するために次の研究を行う。1)方策勾配法の理論的な研究:階層化による高度な戦略の学習、環境ダイナミクスと行動知識の分離学習(転移学習と関連)、方策として様々な形態の数理モデル(ファジィルール、ベイズネット等)の適用方式の考案。2)方策勾配法の応用面の研究:追跡問題(追跡ゲーム)、ロボットサッカー、コンピュータ将棋等への適用である。 2016年度は、1)では、階層化モデルを用いた強化学習理論を英文でまとめ、芝浦工業大学研究報告において発表した。学習則に関しても詳細な導出を記載した。2)では、サッカーエージェントにおけるスルーパスの強化学習の研究と、局面評価関数を用いたサッカーエージェントの移動先決定方式の研究をまとめ、前者はFIT2016(第15回情報科学技術フォーラム)で、後者はGW2016(ゲームプログラミングワークショップ2016)において口頭発表を行った。前者の研究は、確実なスルーパスの発生頻度を高めるためにパッサーの持つ局面評価関数のパラメータを人間の与える報酬を手掛かりに学習して行く研究である。後者の研究はパスを受けるレシーバの位置取りを、レシーバの持つ局面評価関数のパラメータを同様に学習して行く研究である。また、コンピュータ将棋に関して、ソフトマックス戦略と実現確率による深さ制御を用いたシンプルなゲーム木探索の研究を行い、GPW2016で口頭発表を行った。この研究は従来のMinimax探索ではなく確率的な探索により、複雑な枝刈操作を行うことなく簡単な処理だけでゲーム木探索を行おうとする研究である。
|