研究課題/領域番号 |
26330267
|
研究機関 | 独立行政法人大学評価・学位授与機構 |
研究代表者 |
宮崎 和光 独立行政法人大学評価・学位授与機構, 研究開発部, 准教授 (20282866)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | マルチエージェントシステム / 経験強化型学習 / 強化学習 / 機械学習 / 人工知能 / ソフトコンピューティング |
研究実績の概要 |
本研究課題では、マルチエージェント学習における経験強化型学習XoLに関する理論および応用研究を進めている。平成27年度においては、当初の予定通り、マルチエージェント学習における「間接報酬の効用」、すなわち「間接報酬の正の効果」の解析を行った。具体的には、「間接報酬により不完全知覚問題を解消する手法」を提案するとともに、以前証明した間接報酬に関する定理との関係を整理し、「全エージェントが報酬を得るための定理」としてのとりまとめを行った。 本成果は、平成28年3月に開催された「電気学会 システム研究会 機械学習応用研究の最前線」において、「マルチエージェント環境における間接報酬に関する一考察」という題目で発表するとともに、研究会資料として、その内容を公表した。 平成11年に公表した間接報酬に関する定理は、直接報酬を得たエージェント以外のエージェントに間接報酬を分配する際に、間接報酬が悪影響を及ぼさないための定理であった。それは間接報酬の「負の効果」を解析したものである。それに対し、今回、不完全知覚の解消という間接報酬の「正の効果」に貢献する手法が提案できたことは、今後、マルチエージェント学習を発展させる上で、重要な意義をもつと考える。 平成27年度の研究成果は、平成26年度の成果とともに、本研究課題を推進する上での基本となるものである。特に、この2年間で提案した手法は、今後実施する予定の各種の応用例の探求において中心的な役割を担うものである。また、これらの成果はXoL以外の強化学習手法に対しても適用可能であり、マルチエージェント学習一般に対しても大きな意義がある研究成果であると考える。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
交付申請書の「研究の目的」に記載した(1)から(3)までの3つの主目的のうち、平成26年度には「(1)マルチエージェント学習における「同時学習問題」に対する新たな手法の提案」を実現し、平成27年度には「(2)マルチエージェント学習における「間接報酬」の効用の解析」を実現した。したがって、本研究課題は、おおむね順調に進展していると考えられる。
|
今後の研究の推進方策 |
今後は、交付申請書の「研究の目的」に記載した3つの主目的のうちの残りのひとつ、すなわち、「(3)マルチエージェント学習を用いたキラーアプリケーションの提示」を中心に研究を推進させる予定でいる。 具体的な推進方法は、平成28年度の研究実施計画を基本とするが、近年、深層学習が大きな広がりをみせているので、応用例の探求においても、深層学習を利用した例も検討する予定でいる。
|
次年度使用額が生じた理由 |
近年、深層学習が注目されており、本研究課題においても、実験環境の整備を進めている。特に、平成28年度には、実験環境の中心となるGPUの新製品の発売が予定されている。本格的な実験環境の整備は、新型のGPUの発売後に行うことを考えており、助成金の繰り越しを図った。
|
次年度使用額の使用計画 |
新型のGPUである「GeForce GTX 1080」を複数枚購入し、深層学習の実験環境の整備を図る予定である。
|