研究課題/領域番号 |
19K12147
|
研究機関 | 松江工業高等専門学校 |
研究代表者 |
堀内 匡 松江工業高等専門学校, 電子制御工学科, 教授 (50294129)
|
研究分担者 |
青代 敏行 東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (40571849)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | 深層強化学習 / 知能ロボティクス / 群ロボット / 行動獲得 |
研究実績の概要 |
本研究では,実環境での深層強化学習の実現と群ロボットの協調行動の獲得を目指す.実環境での深層強化学習を実現するために「シミュレーションと実機の差異の低減手法」を導入する.まず,本研究の第一目的として「複雑な実環境での単一のロボットの行動獲得」を実現する.家具などが存在する室内環境における単一の移動ロボットの視覚情報に基づく行動獲得を深層強化学習により実現する.次に,複数のロボットが存在する環境を想定し,実機の群ロボットを対象とした協調行動の獲得」を本研究の第二目的とする.実機の群ロボットの環境における「追い抜き行動」や「すれ違い行動」などの協調行動の獲得を深層強化学習により実現する.さらに,本研究の第三目的として「深層強化学習における行動選択の説明性の向上」を実現する.深層強化学習において,ロボットがカメラ画像内のどの領域に注目して行動を選択したかを明らかにする. 本年度は,本研究の第一目的である「複雑な実環境での単一のロボットの行動獲得」および第二目的である「実機の群ロボットを対象とした協調行動の獲得」について,シミュレーション環境での実験に重点を置いて,研究を進めた.具体的には,家具などがある室内環境を模したシミュレーション環境において,深層強化学習の最新アルゴリズムであるRainbowを適用し,単一の移動ロボットの行動獲得を実現した.また,3台の移動ロボットが存在する群ロボットの環境における「追い抜き行動」の獲得や「正面衝突の回避行動」の獲得について,シミュレーション環境において実現方法を検討した. さらに,本研究の第三目的である「深層強化学習における行動選択の説明性の向上」についても,研究を進めた.群ロボットの環境において,深層学習の注視領域の可視化手法であるGrad-CAMおよびGrad-CAM++を適用し,その有効性について検証した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は,新型コロナウィルス感染症の影響があり,実機ロボットの環境での実験をあまり実施することができなかったが,シミュレーション環境での実験に重点を研究を進める工夫をした.その結果,本研究における第一目的の「複雑な実環境での単一のロボットの行動獲得」および第二目的の「実機の群ロボットを対象とした協調行動の獲得」だけでなく,第三目的の「深層強化学習における行動選択の説明性の向上」に関しても,研究を進め,シミュレーション環境での実験を通して,ある程度の成果を挙げることができた. それらの研究成果について,計測自動制御学会システム・情報部門学術講演会2020,電気学会システム研究会,日本知能情報ファジィ学会中国・四国支部大会などのオンライン開催の学会において,成果発表を行った. 以上の理由により,昨年度と本年度を含めた現在までの進捗状況は「おおむね順調に進展している」と評価できる.
|
今後の研究の推進方策 |
今後はまず,本研究の第二目的である「実機の群ロボットを対象とした協調行動の獲得」に関して,学習の更なる高速化を実現するための手法について検討する.具体的には,現在のDQN (Deep Q-network) の代わりに,RainbowやSoft Actor-Criticなどの深層強化学習の手法の導入を検討し,シミュレーション実験および実機実験をより多く実施する.特に,実機実験に要する時間の短縮を実現することを検討する. さらに,本研究の第三目的である「深層強化学習における行動選択の説明性の向上」に関して.引き続き検討を進める.具体的には,深層強化学習のアルゴリズムとして,RainbowやSoft Actor-Criticを導入した場合におけるロボットの注視領域を可視化する手法を検討するとともに,可視化手法の有効性を定量的に評価する方法について検討を進める.
|
次年度使用額が生じた理由 |
新型コロナウィルス感染症の影響により,発表を予定していた学会が中止やオンライン開催になり,旅費の全額が不要となった.また,新型コロナウィルス感染症の影響で,シミュレーション環境での実験に重点を置き,実機ロボットの環境での実験をあまり実施することができなかった.そのため,物品の購入も計画よりも少なかった.これらの旅費および物品費は,次年度の物品費と合わせて,次年度における物品等の購入に使用する予定である.
|