2015 年度実施状況報告書

マルチエージェント系における経験強化型学習ＸｏＬの理論と応用

研究課題

研究課題/領域番号	26330267
研究機関	独立行政法人大学評価・学位授与機構
研究代表者	宮崎和光独立行政法人大学評価・学位授与機構, 研究開発部, 准教授 (20282866)
研究期間 (年度)	2014-04-01 – 2017-03-31
キーワード	マルチエージェントシステム / 経験強化型学習 / 強化学習 / 機械学習 / 人工知能 / ソフトコンピューティング
研究実績の概要	本研究課題では、マルチエージェント学習における経験強化型学習XoLに関する理論および応用研究を進めている。平成２７年度においては、当初の予定通り、マルチエージェント学習における「間接報酬の効用」、すなわち「間接報酬の正の効果」の解析を行った。具体的には、「間接報酬により不完全知覚問題を解消する手法」を提案するとともに、以前証明した間接報酬に関する定理との関係を整理し、「全エージェントが報酬を得るための定理」としてのとりまとめを行った。本成果は、平成２８年３月に開催された「電気学会　システム研究会　機械学習応用研究の最前線」において、「マルチエージェント環境における間接報酬に関する一考察」という題目で発表するとともに、研究会資料として、その内容を公表した。平成１１年に公表した間接報酬に関する定理は、直接報酬を得たエージェント以外のエージェントに間接報酬を分配する際に、間接報酬が悪影響を及ぼさないための定理であった。それは間接報酬の「負の効果」を解析したものである。それに対し、今回、不完全知覚の解消という間接報酬の「正の効果」に貢献する手法が提案できたことは、今後、マルチエージェント学習を発展させる上で、重要な意義をもつと考える。平成２７年度の研究成果は、平成２６年度の成果とともに、本研究課題を推進する上での基本となるものである。特に、この２年間で提案した手法は、今後実施する予定の各種の応用例の探求において中心的な役割を担うものである。また、これらの成果はXoL以外の強化学習手法に対しても適用可能であり、マルチエージェント学習一般に対しても大きな意義がある研究成果であると考える。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由交付申請書の「研究の目的」に記載した（１）から（３）までの３つの主目的のうち、平成２６年度には「（１）マルチエージェント学習における「同時学習問題」に対する新たな手法の提案」を実現し、平成２７年度には「（２）マルチエージェント学習における「間接報酬」の効用の解析」を実現した。したがって、本研究課題は、おおむね順調に進展していると考えられる。
今後の研究の推進方策	今後は、交付申請書の「研究の目的」に記載した３つの主目的のうちの残りのひとつ、すなわち、「（３）マルチエージェント学習を用いたキラーアプリケーションの提示」を中心に研究を推進させる予定でいる。具体的な推進方法は、平成２８年度の研究実施計画を基本とするが、近年、深層学習が大きな広がりをみせているので、応用例の探求においても、深層学習を利用した例も検討する予定でいる。
次年度使用額が生じた理由	近年、深層学習が注目されており、本研究課題においても、実験環境の整備を進めている。特に、平成２８年度には、実験環境の中心となるGPUの新製品の発売が予定されている。本格的な実験環境の整備は、新型のGPUの発売後に行うことを考えており、助成金の繰り越しを図った。
次年度使用額の使用計画	新型のGPUである「GeForce GTX 1080」を複数枚購入し、深層学習の実験環境の整備を図る予定である。

研究成果
(6件)

すべて 2016 2015

すべて雑誌論文 (1件) (うち査読あり 1件、謝辞記載あり 1件) 学会発表 (5件) (うち国際学会 1件)

[雑誌論文] 失敗確率伝播アルゴリズムEFPAの提案とマルチエージェント環境下での有効性の検証2016
- 著者名/発表者名
  村岡宏紀、宮崎和光、小林博明
- 雑誌名
  
  電気学会論文誌Ｃ
  
  巻: 136 (3) ページ: 273-281
- DOI
  10.1541/ieejeiss.136.273
- 査読あり / 謝辞記載あり
[学会発表] マルチエージェント環境における間接報酬に関する一考察2016
- 著者名/発表者名
  宮崎和光
- 学会等名
  電気学会　システム研究会　「機械学習応用研究の最前線」
- 発表場所
  東京トラック事業健保会館（東京都千代田区）
- 年月日
  2016-03-08
[学会発表] 予想失敗確率を組み込んだ行動選択戦略の提案とマルチエージェント環境下での有効性の検証2016
- 著者名/発表者名
  古川耕大、宮崎和光、小林博明
- 学会等名
  電気学会　システム研究会　「機械学習応用研究の最前線」
- 発表場所
  東京トラック事業健保会館（東京都千代田区）
- 年月日
  2016-03-08
[学会発表] 政策の多様性を重視した直接政策探索法の提案2015
- 著者名/発表者名
  徳久文彬，小野功，宮崎和光
- 学会等名
  計測自動制御学会システム・情報部門学術講演会 2015
- 発表場所
  函館アリーナ
- 年月日
  2015-11-18 – 2015-11-20
[学会発表] The Necessity of a Secondary System in Multi-agent Learning2015
- 著者名/発表者名
  Kazuteru Miyazaki
- 学会等名
  The First International Symposium on Swarm Behavior and Bio-Inspired Robotics
- 発表場所
  Kyoto University
- 年月日
  2015-10-28 – 2015-10-30
- 国際学会
[学会発表] 学位取得者に対するアンケート調査の分析2015
- 著者名/発表者名
  宮崎和光
- 学会等名
  電気学会　合同システム研究会
- 発表場所
  電力中央研究所（東京都千代田区）
- 年月日
  2015-06-20

2015 年度 実施状況報告書

マルチエージェント系における経験強化型学習ＸｏＬの理論と応用

研究代表者

宮崎 和光 独立行政法人大学評価・学位授与機構, 研究開発部, 准教授 (20282866)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] 失敗確率伝播アルゴリズムEFPAの提案とマルチエージェント環境下での有効性の検証2016

著者名/発表者名

雑誌名

DOI

[学会発表] マルチエージェント環境における間接報酬に関する一考察2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 予想失敗確率を組み込んだ行動選択戦略の提案とマルチエージェント環境下での有効性の検証2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 政策の多様性を重視した直接政策探索法の提案2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] The Necessity of a Secondary System in Multi-agent Learning2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 学位取得者に対するアンケート調査の分析2015

著者名/発表者名

学会等名

発表場所

年月日

2015 年度実施状況報告書

宮崎和光独立行政法人大学評価・学位授与機構, 研究開発部, 准教授 (20282866)