研究課題/領域番号 |
19K12118
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 名古屋工業大学 |
研究代表者 |
森山 甲一 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10361776)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2019年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
|
キーワード | マルチエージェントシステム / 強化学習 / 協調 / ゲーム / 進化 / マルチエージェント強化学習 / 報酬設計 / 進化シミュレーション / 協調形成 |
研究開始時の研究の概要 |
計算機シミュレーションにより、仮想個体(エージェント)が複数集まる仮想社会で、目的達成のために連続的な意思決定が必要な環境における協力行動について議論する。エージェントは報酬を最大化する行動を学習する強化学習を行うが、報酬をそのまま用いるのではなく、人間の感情のような報酬を評価する機構を持ち、その評価により学習するものとする。 本研究では、この評価機構が協力行動の必要性から得られたものと考え、連続的な意思決定と協力行動が必要な環境において、進化シミュレーションにより協力行動を導く評価機構が得られるか否かを考察する。さらに、複数の環境において協力行動を導く汎用的な評価機構について考察する。
|
研究実績の概要 |
本研究では,計算機シミュレーションにより,行動主体(エージェント)が複数存在する環境における協力行動の発生過程を議論する.現実に近い連続的な意思決定を必要とする環境として,複数のエージェントが「協力すべき」ゲームを対象とし,個々が意思決定方策を強化学習により獲得する.意思決定の結果を各自が自己評価して学習に反映させるものとした時,エージェント間の協力をもたらす自己評価システムが進化により発生するか否か,およびその発生のための要件について考察する. 2022年度は,2021年度までに得られた知見をさらに深めることが行われた.内部報酬(自己評価)を利用した好奇心探索を,追跡問題と呼ばれるマルチエージェント環境へ適用することで,強化学習のみと比べてより多くの協調行動が得られることが示されていたが,その要因を考察した.その結果,強化学習のみでは個々が獲物を追いかけることで,互いに環境内で衝突してしまい,結果として獲物を取り逃がしていたが,好奇心探索を用いた場合には,一部のエージェントが回り込むなどの動作を学習することで,互いの衝突を減らすことが見られた.これは,自己評価によって探索を促進することで,結果として協力行動が得られたと解釈できる.また,自己評価システムの進化に関する研究については以下のとおりである.ゲーム空間上のエージェントの位置関係に基づくものについて,新たに人工ポテンシャル場の考えを導入し,そのポテンシャル関数を進化計算で調整することにより,ゲームにおいてより多くの得点を獲得することに成功した.一方で,2人同時手番ゲームで有効性が確認された,より一般的な自己評価システムの進化の研究では,連続的な意思決定を要するゲームへ適用したところ,残念ながらまだ満足する結果が得られておらず,さらなる検討が必要である.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
2022年度になってようやく新型コロナウイルス感染症の影響が軽減されてきたが,これまでの進捗の遅れを取り戻すまでには至っていない.そこで,本研究課題の再延長を申請し,認められた.所属機関の活動も年度後半からは対面が原則となり,意思疎通や進捗管理の問題も徐々に改善しつつある.それに伴い成果も徐々に出てきているが,上記研究実績の概要のとおり,一般的な自己評価システムの実現については,まだ満足する結果が得られていないのが現状である.
|
今後の研究の推進方策 |
まず,これまでに得られた成果についての対外発表を進めていく予定である.国際会議や論文誌など査読付きのものへの投稿を積極的に行いたいと考えている.また,2022年度に購入した計算機を活用して研究を進めていく.特に,まだ満足する結果が得られていない,一般的な自己評価システムの実現について注力する予定である.
|