2018 年度研究成果報告書

仮想社会における強化学習エージェントの報酬評価システム発現過程の解析

研究課題

PDF

研究課題/領域番号	16K00302
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
研究分野	知能情報学
研究機関	名古屋工業大学
研究代表者	森山甲一名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	知的エージェント / 強化学習 / 報酬設計 / 進化 / マルチエージェントシステム / ゲーム理論
研究成果の概要	本研究は，複数の強化学習エージェントが行動する仮想社会における，協力などの社会的な行動の発生に関する研究である．社会的な行動の発生は，比較可能な客観的評価だけでなく，各個体の持つ「価値観」に基づいて行動を学習することで，個体ごとに異なる目的を持つためかもしれない．この考えに基づき，「価値観」が客観的評価に基づいてどのように進化するか，それによりどのような社会が実現するかを計算機シミュレーションと数理的解析で調査した．互いの協調が必要だが，裏切りを選んでしまうジレンマ状況において，エージェントに協調を促す「価値観」が進化すること，および大まかなその進化の方向が明らかになった．
自由記述の分野	人工知能
研究成果の学術的意義や社会的意義	強化学習の実現には，状態・行動・報酬の設計が必要である．しかし，複数のエージェントが存在する開いた環境における報酬の設計は非常に困難である．一方で，我々人間は，価値観に基づく主観的な評価（うれしい，恥ずかしいなど）から，複数の人間が存在する開いた社会で適切な振る舞いを学習することができている．本研究は，エージェントの「価値観」の発生・進化を考えることで，開いた環境における報酬の設計を自動化する試みである．同時に，エージェントの「価値観」の形成過程から，人間の価値観などの非合理的側面の存在理由を考える研究でもある．