2016 年度研究成果報告書

方策勾配法によるマルコフ決定過程を前提としない強化学習の理論とゲームへの応用

研究課題

研究課題/領域番号	26330419
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
研究分野	エンタテインメント・ゲーム情報学
研究機関	芝浦工業大学
研究代表者	五十嵐治一芝浦工業大学, 工学部, 教授 (80288886)
連携研究者	石原聖司東京電機大学, 理工学部, 准教授 (50351656)
研究協力者	森岡祐一山本一将
研究期間 (年度)	2014-04-01 – 2017-03-31
キーワード	強化学習 / 方策勾配法 / マルチエージェント / コンピュータ将棋 / ロボカップ / ソフトマックス探索
研究成果の概要	本研究は強化学習の一方式である方策勾配法において、方策関数の表現法と学習方式を考案し、ゲーム分野や工学的応用への方法論を構築することを目的として理論的な研究と応用面での研究を行った。この結果、次の研究成果を得た： (1)方策勾配法の理論的な研究として、①階層化による高度な戦略の学習方式の提案、②環境ダイナミクスと行動知識の分離学習の提案、③方策としてファジィ制御ルールを用いた場合の学習方式の提案をすることができた。 (2)方策勾配法の応用面の研究として、追跡ゲーム、ロボットサッカー、コンピュータ将棋等への適用を試み、提案手法の有効性を確認することができた。
自由記述の分野	人工知能