2016 Fiscal Year Research-status Report

仮想社会における強化学習エージェントの報酬評価システム発現過程の解析

Research Project

Project/Area Number	16K00302
Research Institution	Nagoya Institute of Technology
Principal Investigator	森山甲一名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)
Project Period (FY)	2016-04-01 – 2019-03-31
Keywords	強化学習 / マルチエージェントシステム / ゲーム理論 / 進化計算
Outline of Annual Research Achievements	本研究では，強化学習を行う複数のエージェントが行動する仮想社会において，学習に用いる報酬について考える．個々のエージェントが報酬の最大化を試みると，社会全体に軋轢が生じる恐れがある．一方で，我々人間は，個々の考え方の違いなどによりそのような問題を上手に回避している．そこで，このような考え方の違いをもたらすものとして，価値観を持つエージェントを考える．価値観は社会的行動の必要に応じて進化したものと仮定する．本研究では，報酬に基づいて進化する可塑的な評価システムを持ち，評価システムの出力である自己評価に基づいて行動を強化学習するエージェントを導入する．そして，各エージェントの持つ評価システムを報酬に基づいて進化させた場合に，どのような評価システムが出現し，そのようなエージェントからなる集団によりどのような社会が実現するかをシミュレーションおよび数理的解析により明らかにする．研究初年度である平成28年度は主にシミュレーション実験による観察とデータの収集を行った．プログラムを設計，実装し，購入した計算機を用いてシミュレーションを数多く走らせることにより，どのような評価システムが出現するかを観察した．その結果，評価システムの進化過程についての興味深い知見が得られた．また，ごく一部だが，仮想社会における評価とエージェントの行動の関係についての数理的解析も開始した．これらの成果については，平成29年度に発表を行うことを予定している．さらに，シミュレーション実験の高速化について検討を行い，3月に開催された学会で一部の成果を発表した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 当初計画通り，初年度は計算機シミュレーションに基づく調査を行った．そこから興味深い知見が得られるなどしており，次年度に発表を行う予定である．また，シミュレーション実験の効率化のための高速化の検討も並行して行い，成果を発表することができた．以上より，現在までの達成度はおおむね順調であると考える．
Strategy for Future Research Activity	今後は，平成28年度にシミュレーションにより得られた結果を元に，各エージェントの評価システムの解析的な検討を行う予定である．評価システム全体がつくる空間を想定し，その間の遷移という形で進化過程を表現することを予定している．また，評価システムとエージェントの行動の関係についても引き続き解析的な検討を行う予定である．さらに，必要に応じてシミュレーション実験を再び行うこともあるため，実験の効率化，高速化についても検討を行う予定である．
Causes of Carryover	当初想定より出張が少なく，旅費の支出が減少したため．
Expenditure Plan for Carryover Budget	今までに得られた成果の発表のための費用（旅費，参加費，投稿費等），研究のための知識を得るための文献等の購入，研究動向調査や打合せのための旅費などに用いる予定である．

Research Products
(1 results)

All Presentation (1 results)

[Presentation] GPGPUを用いた2人ゲームにおける強化学習の高速化2017
- Author(s)
  黒木是冶，森山甲一，武藤敦子，犬塚信博
- Organizer
  情報処理学会第79回全国大会
- Place of Presentation
  名古屋大学（名古屋市）
- Year and Date
  2017-03-16 – 2017-03-18