研究課題/領域番号 |
19K12118
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 名古屋工業大学 |
研究代表者 |
森山 甲一 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2019年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
|
キーワード | マルチエージェントシステム / 強化学習 / 協調 / 報酬設計 / 内発的動機付け / 進化 / 人工社会 / ゲーム / マルチエージェント強化学習 / 進化シミュレーション / 協調形成 |
研究開始時の研究の概要 |
計算機シミュレーションにより、仮想個体(エージェント)が複数集まる仮想社会で、目的達成のために連続的な意思決定が必要な環境における協力行動について議論する。エージェントは報酬を最大化する行動を学習する強化学習を行うが、報酬をそのまま用いるのではなく、人間の感情のような報酬を評価する機構を持ち、その評価により学習するものとする。 本研究では、この評価機構が協力行動の必要性から得られたものと考え、連続的な意思決定と協力行動が必要な環境において、進化シミュレーションにより協力行動を導く評価機構が得られるか否かを考察する。さらに、複数の環境において協力行動を導く汎用的な評価機構について考察する。
|
研究成果の概要 |
本研究は,環境中で行動する複数の主体(エージェント)が,行動の結果として環境から得られる報酬をもとに独立に行動を学習する環境において,協力的な行動を学習する仕組みについて検討した.特に,現実と同様に過去の決定が未来に影響を及ぼす環境として,複数のエージェントの協力が必要なゲームを対象として研究を行った.主に,利己的な行動では目的が達成されないゲームにおいて,エージェントが内部で報酬を生成して協力的な行動を導く手法を検討し一定の成果を得た.さらに,そのような性質を持つ簡単な環境を考案して調査したところ,内部報酬によらない協力行動の学習の可能性が明らかになった.
|
研究成果の学術的意義や社会的意義 |
本研究では,個々が独立に報酬を最大化しようとする利己的な個体間の協力行動の発生について検討した.既存の利他的行動に関する数理的研究では主に進化を議論しているが,個体の学習の影響を考慮したものは少ない.本研究は,主に個体の学習に着目し,それを制御する報酬の設計を進化計算で試みたものである.学習における報酬設計は近年重要な課題となっており,学術的意義は大きい.また,既存の数理的研究では各行動が時間的に独立な場合の議論が多く,本研究のように過去の行動が未来に影響を及ぼす環境を対象としたものは少ない.さらに,今後のこの分野の研究の発展のため,このような環境の簡単な例を示したことは重要である.
|