2017 年度実施状況報告書

仮想社会における強化学習エージェントの報酬評価システム発現過程の解析

研究課題

研究課題/領域番号	16K00302
研究機関	名古屋工業大学
研究代表者	森山甲一名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	強化学習 / マルチエージェントシステム / ゲーム理論 / 進化計算
研究実績の概要	本研究は，強化学習を行う複数のエージェントが行動する仮想社会において，学習に用いる報酬が個々のエージェントの持つ「価値観」により変化する状況を考え，この「価値観」が社会的な行動の必要に応じて進化したものと仮定する．そして，エージェントの持つ「価値観」が与えられる報酬に基づいてどのように進化するか，それによりどのような社会が実現するかをシミュレーションと数理的解析で明らかにしようとするものである．平成29年度は，平成28年度のシミュレーション実験結果に基づき，「価値観」を構成するパラメータ空間上でどのように進化が進むかの検証を行った．まず，このパラメータ空間を小さな超立方体空間に分け，各小空間内で短期的な進化がどの方向に向かうかをシミュレーション実験で調査した．さらに，その小空間の全体における位置から，その位置におけるパラメータの性質を表す式を考案し，全体のパラメータ空間をその式に基づいて4分割した．それから，この4分割した空間のそれぞれについて，この式を用いてシミュレーション実験結果に現れる進化の方向を大まかに説明することが出来ることを示した．以上の結果について，国内学会で一部を発表済みであり，平成30年度には国際学会で発表を行う予定である．その他，本研究で用いているシミュレーション環境の高速化について，その進捗を平成30年度に国内学会で発表予定である．また，本研究で対象とする環境および強化学習手法についての基礎的な考察を行い，その成果を国際学会で発表した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本年度は，平成28年度のシミュレーション結果をもとに，「価値観」を構成するパラメータ空間の遷移という形で進化過程を表現する計画であった．この点については，概要に記した通り一定の成果を得られている．また，シミュレーション実験の高速化や，環境自体の持つ性質の考察などの成果発表もできたため，研究の進捗としてはおおむね順調であると考える．
今後の研究の推進方策	最終年度である平成30年度は，平成29年度に得られた小空間間の遷移に基づく進化方向の説明を，複数の小空間を連結したより大きな空間に拡大し，全体の流れとして考察する予定である．さらに，この大きな空間の中の遷移を示す連続的な方程式を導出したいと考えている．
次年度使用額が生じた理由	（理由）学会参加について別の予算から充当するなど，旅費・参加費の支出が想定よりも減少したため．（使用計画）おもに今までに得られた成果の発表のための費用（旅費，参加費，投稿費）に利用する予定である．