研究課題/領域番号 |
19K12118
|
研究機関 | 名古屋工業大学 |
研究代表者 |
森山 甲一 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | マルチエージェントシステム / 強化学習 / 協調 / ゲーム / 進化 |
研究実績の概要 |
本研究は,計算機シミュレーションにより,行動主体(エージェント)が複数存在する環境で協力行動が生まれる過程を議論するものである.特に,個々のエージェントが我々人間のように,意思決定方法を学習により獲得し,その意思決定の結果を自己評価する機構を持つものとして考える.これまで,ゲーム理論における繰り返しゲームにおいて,協力行動をもたらす自己評価機構が進化によりもたらされることを明らかにした.本研究では,繰り返しゲームでなく,現実に近い連続的な意思決定を必要とする環境で議論を行う.その環境としてコンピュータゲーム,特に複数のエージェントが「協力すべき」ゲームを対象とし,エージェント間の協力をもたらす評価システムが発生するか否か,およびその発生のための要件について考察する. 研究初年度は,まず対象とする「協力すべき」ゲームについて調査を行った.GVGAI競技会の2人ゲーム部門における2者の協力を必要とするゲームに加え,別の競技会におけるゲームについても調査を行った.これら過去の競技会で優秀な成績を収めている手法についての調査も同時に行っている.さらに,これまでの繰り返しゲームにおける手法の適用を試みた.繰り返しゲームの場合,過去の意思決定結果は以後の意思決定に直接的には作用しないため,明示的に環境状態を考慮する必要はない.しかし,連続的な意思決定を必要とするゲームにおいては,環境状態を考慮しなくてはならない.この環境状態をどのように表現すべきかの検討,および手法そのものの再検討に時間がかかることが明らかとなった. その他,強化学習における自己評価システムに関する研究,マルチエージェント強化学習シミュレーションの並列化による高速化に関する研究,および従来研究の補強として,繰り返しゲームへの異なる強化学習手法の適用に関する研究などを行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
当初計画では既に最初の計算機シミュレーションを行っているはずであったが,既存のゲームの調査,状態表現の検討やこれまでの手法の再検討に想定以上に時間がかかっており,まだそこまで至っていない.そのために,当初計画より若干遅れていると考える.
|
今後の研究の推進方策 |
まず,状態表現の検討,繰り返しゲーム用の手法の再検討を進め,検討結果の計算機上への実装を早急に行う.次に,計算機シミュレーションにより,各ゲームにおける自己評価メカニズムの進化傾向を観察する.入力である状態および出力である行動がゲームにより異なるため,仮にあるゲームで協調をもたらす自己評価メカニズムが得られたとしても,それをそのまま他のゲームに適用してもうまくいかないはずである.そこで,各ゲームにおけるメカニズムの導出過程自体を観察し,それを制御する方法を検討する.まず,あるゲームで協力行動を導くメカニズムが導出された場合に,そのメカニズムの導出過程を詳細に調査し,他のゲームでも同様の過程が現れるように,メカニズムの探索空間を制御する方法が考えられる.
|
次年度使用額が生じた理由 |
(理由)当初予算に計上した計算機の購入が当初予定より遅れている.また,新型コロナウイルス感染症の流行により,年度末の出張が中止になり,旅費の支出が減少した. (使用計画)計算機についてはこれから購入する予定である.また,新型コロナウイルス感染症の流行が落ち着き次第,研究動向調査や研究発表のため,国内・海外の学会などへの出張を行う予定である.さらに,知識を得るための文献等の購入や,研究成果の発表に伴う論文投稿費などに使用する予定である.
|