研究課題/領域番号 |
19K12118
|
研究機関 | 名古屋工業大学 |
研究代表者 |
森山 甲一 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
キーワード | マルチエージェントシステム / 強化学習 / 協調 / ゲーム / 進化 |
研究実績の概要 |
本研究では,計算機シミュレーションにより,行動主体(エージェント)が複数存在する環境における協力行動の発生過程を議論する.現実に近い連続的な意思決定を必要とする環境として,複数のエージェントが「協力すべき」ゲームを対象とし,個々が意思決定方策を強化学習により獲得する.意思決定の結果を各自が自己評価して学習に反映させるものとした時,エージェント間の協力をもたらす自己評価システムが進化により発生するか否か,およびその発生のための要件について考察する. 2022年度は,2021年度までに得られた知見をさらに深めることが行われた.内部報酬(自己評価)を利用した好奇心探索を,追跡問題と呼ばれるマルチエージェント環境へ適用することで,強化学習のみと比べてより多くの協調行動が得られることが示されていたが,その要因を考察した.その結果,強化学習のみでは個々が獲物を追いかけることで,互いに環境内で衝突してしまい,結果として獲物を取り逃がしていたが,好奇心探索を用いた場合には,一部のエージェントが回り込むなどの動作を学習することで,互いの衝突を減らすことが見られた.これは,自己評価によって探索を促進することで,結果として協力行動が得られたと解釈できる.また,自己評価システムの進化に関する研究については以下のとおりである.ゲーム空間上のエージェントの位置関係に基づくものについて,新たに人工ポテンシャル場の考えを導入し,そのポテンシャル関数を進化計算で調整することにより,ゲームにおいてより多くの得点を獲得することに成功した.一方で,2人同時手番ゲームで有効性が確認された,より一般的な自己評価システムの進化の研究では,連続的な意思決定を要するゲームへ適用したところ,残念ながらまだ満足する結果が得られておらず,さらなる検討が必要である.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
2022年度になってようやく新型コロナウイルス感染症の影響が軽減されてきたが,これまでの進捗の遅れを取り戻すまでには至っていない.そこで,本研究課題の再延長を申請し,認められた.所属機関の活動も年度後半からは対面が原則となり,意思疎通や進捗管理の問題も徐々に改善しつつある.それに伴い成果も徐々に出てきているが,上記研究実績の概要のとおり,一般的な自己評価システムの実現については,まだ満足する結果が得られていないのが現状である.
|
今後の研究の推進方策 |
まず,これまでに得られた成果についての対外発表を進めていく予定である.国際会議や論文誌など査読付きのものへの投稿を積極的に行いたいと考えている.また,2022年度に購入した計算機を活用して研究を進めていく.特に,まだ満足する結果が得られていない,一般的な自己評価システムの実現について注力する予定である.
|
次年度使用額が生じた理由 |
(理由)研究の進捗の遅れによる研究課題の再延長のため (使用計画)おもに得られた成果の対外発表の旅費や参加費,論文掲載料等に使用する予定である.
|