研究課題/領域番号 |
19K12118
|
研究機関 | 名古屋工業大学 |
研究代表者 |
森山 甲一 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | マルチエージェントシステム / 強化学習 / 協調 / ゲーム / 進化 |
研究実績の概要 |
本研究では,計算機シミュレーションにより,行動主体(エージェント)が複数存在する環境における協力行動の発生過程を議論する.現実に近い連続的な意思決定を必要とする環境として,複数のエージェントが「協力すべき」コンピュータゲームを対象とし,個々が意思決定方策を強化学習により獲得する.意思決定の結果を各自が自己評価して学習に反映させるものとした時,エージェント間の協力をもたらす自己評価システムが進化により発生するか否か,およびその発生のための要件について考察する. 2021年度には,2020年度の成果として得られた「協力すべき」ゲームにおける協調行動の学習について,他者の存在の状態表現について再考し,それを離散空間から連続空間に拡張することで,協調行動の学習に与える影響を調査した.さらに,自己評価システムの進化について,そのシステムの入出力関係を示す関数の一般化を行ったところ,2人同時手番ゲームでは従来の結果と同様の結果を得ることが示された.深層強化学習における内部報酬を利用した探索手法である好奇心探索のマルチエージェント環境への適用についても,引き続き研究を行い,通常の深層強化学習のみを用いる場合と比べて,より多くの協調行動が得られることが示された.一方で,ゲーム空間上の位置関係に基づいて自己評価を生成する試みについては,確かに位置関係がゲームのタスク達成に影響があることは示されたが,その適切な自己評価を生成するシステムの進化については,まだ満足する結果が得られていない. その他,ゲーム中の探索による意思決定時における非決定性の扱いについての研究,シミュレーションにおけるエージェントの協調動作に関する研究などを行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
2021年度も引き続き新型コロナウイルス感染症の流行の影響が大きく,進捗状況は明らかに遅れている.そのため,本研究課題の延長を申請することになり,認められた.新型コロナウイルス感染症の影響は2020年度から大きくは変わらず,オンライン授業の準備の負担,および研究室活動のオンライン化に伴う意思疎通や進捗管理の問題が挙げられる.国内での学会は徐々にオンラインで実施されるようになり,年度末には現地開催も増えてきたが,国際会議については引き続き海外渡航が出来ない状況が続いており,オンラインでの出席も時差の関係で難しいことが多い.また,新型コロナウイルス感染症の影響とは別に,私事だが,2021年3月に家族が増えたことによる育児負担の増加も遠因として挙げられる.
|
今後の研究の推進方策 |
まず,2021年度に得られた成果について,国内学会での対外発表を進めていくと同時に,国際会議にも積極的に投稿する予定である.自己評価システムの一般化については,2人同時手番ゲームから,N人同時手番ゲーム,さらには連続的な意思決定を必要とする環境へ拡張を進める予定である.好奇心探索のマルチエージェント環境への適用については,それがなぜ協調行動を促進するのか,より詳細な分析を行う予定である.他者の存在の状態表現の連続化,ゲーム空間上の位置関係に基づく自己評価システムの進化については引き続き調査を進める予定である.最終的には,これらの手法や知見を総合することで,連続的な意思決定を必要とする環境における協力行動を促す自己評価システムの実現という,研究課題の実現を目指す.
|
次年度使用額が生じた理由 |
(理由)2020年度に引き続き,新型コロナウイルス感染症の影響により,国際・国内会議の現地開催が中止となり,旅費の使用がゼロとなったことが大きい.その他の費目についても,基盤経費で購入した計算機を研究の一部で使用するなどしたため,支出が少ない結果となった. (使用計画)もともと,旅費として計画していたが使用できなかった予算についても活用し,物品費の残額と合わせて計算機の購入を行うことで,計算機実験の高速化を図る.また,国内で開催される学会については,徐々に現地開催が復活してきているため,そのための旅費として使用する予定である.海外で開催される会議については,現地出席は引き続き困難が予想されるため,旅費としては使用計画を立てられない.
|