研究課題/領域番号 |
20K23326
|
研究種目 |
研究活動スタート支援
|
配分区分 | 基金 |
審査区分 |
1001:情報科学、情報工学およびその関連分野
|
研究機関 | 岡山大学 |
研究代表者 |
上野 史 岡山大学, 自然科学学域, 助教 (30880687)
|
研究期間 (年度) |
2020-09-11 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | マルチエージェントシステム / 強化学習 / ニューラルネットワーク / 情報粒度 / 協調 / 抽象度 |
研究開始時の研究の概要 |
本研究では,ロボットのように周囲の環境から得た情報を基に行動を決める主体(エージェント)が,複数集まったときの適切な行動則を獲得するマルチエージェント強化学習を実用化する上での,センサの個体差や状況の違いによる,観測情報の粒度の違いに適応した協調行動学習法を提案する.具体的には,エージェントにおける情報の抽象度を制御し,獲得情報の粒度に従ってエージェント毎の抽象度を調整することで,適切な協調行動を学習する.
|
研究成果の概要 |
本研究ではまず,深層強化学習をエージェント同士で入力情報の粒度が異なるマルチエージェント環境に展開し,深層学習によって情報粒度を抽象化していることを分析により明らかにした.また,従来提案した動的環境に追従可能なマルチエージェント強化学習法を深層強化学習に展開することで,入力情報の粒度が異なる複数のエージェントによる迷路問題において最適方策を獲得することを示した.また,動的環境においては,入力情報の粒度が異なる場合,エージェント間で同期的に動くことが難しいため,提案手法の隠れ層に時系列データを学習可能なLSTMを導入し,適切に同期的に協調行動をとる方策を獲得することを明らかにした.
|
研究成果の学術的意義や社会的意義 |
本研究により,従来のマルチエージェント強化学習では取り上げられることのなかった入力情報の粒度の異なる状況に対する追従という新たな学問分野を切り開くことができた.また,実問題に即して考えてみても,例えば複数ロボットの協働制御を考えたときに,ロボットごとのセンサの粒度が異なることや,故障などの状況により得られる情報の粒度が変化することは一般的だが,マルチエージェント強化学習ではあまり考えられることがなかったため,実問題における性能がシミュレーションと比べて高くない傾向にあった.本研究成果による方法論で,マルチエージェント強化学習を実問題に応用する上での性能向上に寄与できたと考えられる.
|