2020 年度実施状況報告書

実環境における深層強化学習の実現と群ロボットへの展開

研究課題

研究課題/領域番号	19K12147
研究機関	松江工業高等専門学校
研究代表者	堀内匡松江工業高等専門学校, 電子制御工学科, 教授 (50294129)
研究分担者	青代敏行東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (40571849)
研究期間 (年度)	2019-04-01 – 2022-03-31
キーワード	深層強化学習 / 知能ロボティクス / 群ロボット / 行動獲得
研究実績の概要	本研究では，実環境での深層強化学習の実現と群ロボットの協調行動の獲得を目指す．実環境での深層強化学習を実現するために「シミュレーションと実機の差異の低減手法」を導入する．まず，本研究の第一目的として「複雑な実環境での単一のロボットの行動獲得」を実現する．家具などが存在する室内環境における単一の移動ロボットの視覚情報に基づく行動獲得を深層強化学習により実現する．次に，複数のロボットが存在する環境を想定し，実機の群ロボットを対象とした協調行動の獲得」を本研究の第二目的とする．実機の群ロボットの環境における「追い抜き行動」や「すれ違い行動」などの協調行動の獲得を深層強化学習により実現する．さらに，本研究の第三目的として「深層強化学習における行動選択の説明性の向上」を実現する．深層強化学習において，ロボットがカメラ画像内のどの領域に注目して行動を選択したかを明らかにする．本年度は，本研究の第一目的である「複雑な実環境での単一のロボットの行動獲得」および第二目的である「実機の群ロボットを対象とした協調行動の獲得」について，シミュレーション環境での実験に重点を置いて，研究を進めた．具体的には，家具などがある室内環境を模したシミュレーション環境において，深層強化学習の最新アルゴリズムであるRainbowを適用し，単一の移動ロボットの行動獲得を実現した．また，3台の移動ロボットが存在する群ロボットの環境における「追い抜き行動」の獲得や「正面衝突の回避行動」の獲得について，シミュレーション環境において実現方法を検討した．さらに，本研究の第三目的である「深層強化学習における行動選択の説明性の向上」についても，研究を進めた．群ロボットの環境において，深層学習の注視領域の可視化手法であるGrad-CAMおよびGrad-CAM++を適用し，その有効性について検証した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本年度は，新型コロナウィルス感染症の影響があり，実機ロボットの環境での実験をあまり実施することができなかったが，シミュレーション環境での実験に重点を研究を進める工夫をした．その結果，本研究における第一目的の「複雑な実環境での単一のロボットの行動獲得」および第二目的の「実機の群ロボットを対象とした協調行動の獲得」だけでなく，第三目的の「深層強化学習における行動選択の説明性の向上」に関しても，研究を進め，シミュレーション環境での実験を通して，ある程度の成果を挙げることができた．それらの研究成果について，計測自動制御学会システム・情報部門学術講演会2020，電気学会システム研究会，日本知能情報ファジィ学会中国・四国支部大会などのオンライン開催の学会において，成果発表を行った．以上の理由により，昨年度と本年度を含めた現在までの進捗状況は「おおむね順調に進展している」と評価できる．
今後の研究の推進方策	今後はまず，本研究の第二目的である「実機の群ロボットを対象とした協調行動の獲得」に関して，学習の更なる高速化を実現するための手法について検討する．具体的には，現在のDQN (Deep Q-network) の代わりに，RainbowやSoft Actor-Criticなどの深層強化学習の手法の導入を検討し，シミュレーション実験および実機実験をより多く実施する．特に，実機実験に要する時間の短縮を実現することを検討する．さらに，本研究の第三目的である「深層強化学習における行動選択の説明性の向上」に関して．引き続き検討を進める．具体的には，深層強化学習のアルゴリズムとして，RainbowやSoft Actor-Criticを導入した場合におけるロボットの注視領域を可視化する手法を検討するとともに，可視化手法の有効性を定量的に評価する方法について検討を進める．
次年度使用額が生じた理由	新型コロナウィルス感染症の影響により，発表を予定していた学会が中止やオンライン開催になり，旅費の全額が不要となった．また，新型コロナウィルス感染症の影響で，シミュレーション環境での実験に重点を置き，実機ロボットの環境での実験をあまり実施することができなかった．そのため，物品の購入も計画よりも少なかった．これらの旅費および物品費は，次年度の物品費と合わせて，次年度における物品等の購入に使用する予定である．

研究成果
(4件)

すべて 2021 2020

すべて学会発表 (4件)

[学会発表] 深層強化学習を用いた群ロボットの行動獲得に関する検討2021
- 著者名/発表者名
  福島英，山田航平，堀内匡
- 学会等名
  第25回日本知能情報ファジィ学会中国・四国支部大会
[学会発表] ボート競技における漕艇動作可視化システムに関する検討2021
- 著者名/発表者名
  石原悠登，石川晃太朗，堀内匡，一箭フェルナンドヒロシ
- 学会等名
  第25回日本知能情報ファジィ学会中国・四国支部大会
[学会発表] 深層強化学習を用いた群ロボットの実機環境での行動獲得の試み2020
- 著者名/発表者名
  綿貫零真，カンサリュー，福島英，堀内匡
- 学会等名
  計測自動制御学会システム・情報部門学術講演会2020
[学会発表] 深層強化学習における移動ロボットの注視領域の可視化手法に関する検討2020
- 著者名/発表者名
  福田隼也，綿貫零真，堀内匡
- 学会等名
  電気学会システム研究会