2016 年度実施状況報告書

仮想社会における強化学習エージェントの報酬評価システム発現過程の解析

研究課題

研究課題/領域番号	16K00302
研究機関	名古屋工業大学
研究代表者	森山甲一名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	強化学習 / マルチエージェントシステム / ゲーム理論 / 進化計算
研究実績の概要	本研究では，強化学習を行う複数のエージェントが行動する仮想社会において，学習に用いる報酬について考える．個々のエージェントが報酬の最大化を試みると，社会全体に軋轢が生じる恐れがある．一方で，我々人間は，個々の考え方の違いなどによりそのような問題を上手に回避している．そこで，このような考え方の違いをもたらすものとして，価値観を持つエージェントを考える．価値観は社会的行動の必要に応じて進化したものと仮定する．本研究では，報酬に基づいて進化する可塑的な評価システムを持ち，評価システムの出力である自己評価に基づいて行動を強化学習するエージェントを導入する．そして，各エージェントの持つ評価システムを報酬に基づいて進化させた場合に，どのような評価システムが出現し，そのようなエージェントからなる集団によりどのような社会が実現するかをシミュレーションおよび数理的解析により明らかにする．研究初年度である平成28年度は主にシミュレーション実験による観察とデータの収集を行った．プログラムを設計，実装し，購入した計算機を用いてシミュレーションを数多く走らせることにより，どのような評価システムが出現するかを観察した．その結果，評価システムの進化過程についての興味深い知見が得られた．また，ごく一部だが，仮想社会における評価とエージェントの行動の関係についての数理的解析も開始した．これらの成果については，平成29年度に発表を行うことを予定している．さらに，シミュレーション実験の高速化について検討を行い，3月に開催された学会で一部の成果を発表した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由当初計画通り，初年度は計算機シミュレーションに基づく調査を行った．そこから興味深い知見が得られるなどしており，次年度に発表を行う予定である．また，シミュレーション実験の効率化のための高速化の検討も並行して行い，成果を発表することができた．以上より，現在までの達成度はおおむね順調であると考える．
今後の研究の推進方策	今後は，平成28年度にシミュレーションにより得られた結果を元に，各エージェントの評価システムの解析的な検討を行う予定である．評価システム全体がつくる空間を想定し，その間の遷移という形で進化過程を表現することを予定している．また，評価システムとエージェントの行動の関係についても引き続き解析的な検討を行う予定である．さらに，必要に応じてシミュレーション実験を再び行うこともあるため，実験の効率化，高速化についても検討を行う予定である．
次年度使用額が生じた理由	当初想定より出張が少なく，旅費の支出が減少したため．
次年度使用額の使用計画	今までに得られた成果の発表のための費用（旅費，参加費，投稿費等），研究のための知識を得るための文献等の購入，研究動向調査や打合せのための旅費などに用いる予定である．

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] GPGPUを用いた2人ゲームにおける強化学習の高速化2017
- 著者名/発表者名
  黒木是冶，森山甲一，武藤敦子，犬塚信博
- 学会等名
  情報処理学会第79回全国大会
- 発表場所
  名古屋大学（名古屋市）
- 年月日
  2017-03-16 – 2017-03-18