2019 Fiscal Year Research-status Report
実環境における深層強化学習の実現と群ロボットへの展開
Project/Area Number |
19K12147
|
Research Institution | Matsue National College of Technology |
Principal Investigator |
堀内 匡 松江工業高等専門学校, 電子制御工学科, 教授 (50294129)
|
Co-Investigator(Kenkyū-buntansha) |
青代 敏行 東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (40571849)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 深層強化学習 / 知能ロボティクス / 群ロボット / 行動獲得 |
Outline of Annual Research Achievements |
本研究では,実環境での深層強化学習の実現と群ロボットの協調行動の獲得を目指す.実環境での深層強化学習を実現するために,「シミュレーションと実機の差異の低減手法」を導入する.まず本研究の第一目的として,「複雑な実環境での単一のロボットの行動獲得」を実現する.家具などが存在する室内環境における単一の移動ロボットの視覚情報に基づく行動獲得を深層強化学習により実現する.次に,複数のロボットが存在する環境を想定し,「実機の群ロボットを対象とした協調行動の獲得」を本研究の第二目的とする.実機の群ロボットの環境における「追い抜き行動」や「すれ違い行動」などの協調行動の獲得を深層強化学習により実現する.さらに,本研究の第三目的として,「深層強化学習における行動選択の説明性の向上」を実現する.深層強化学習において,ロボットがカメラ画像内のどの領域に注目して行動を選択したかを明らかにする. 本年度は,本研究の第一目的である「複雑な実環境での単一のロボットの行動獲得」に重点を置いて,研究実施計画に基づき,研究を進めた.具体的には,家具などがある室内環境を模したシミュレーション環境および実環境において,単一の車輪型移動ロボットの行動獲得を深層強化学習により実現した. また,本研究の第二目的である「実機の群ロボットを対象とした協調行動の獲得」についても,かなり実現することができた.3台の実機の車輪型移動ロボットを製作し,群ロボットの環境における「追い抜き行動」の獲得をシミュレーション環境および実環境の両方において実現した. さらに,本研究の第三目的として,「深層強化学習における行動選択の説明性の向上」についても,検討を進めた.深層学習における注視領域の可視化手法であるGrad-CAMを深層強化学習に適用する手法を提案し,その有効性について検証を開始することができた.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本年度は,本研究における第一目的の「複雑な実環境での単一のロボットの行動獲得」の実現だけでなく,第二目的の「実機の群ロボットを対象とした協調行動の獲得」および第三目的の「深層強化学習における行動選択の説明性の向上」に関しても,それぞれ検討を進め,ある程度の成果を挙げることができた. それらの研究成果について,学術雑誌ICIC Express Letters, Part B: Applications,国際会議SICE Annual Conference 2019,国際会議14th International Conference on Innovative Computing, Information and Control,電気学会電子・情報・システム部門大会,計測自動制御学会システム・情報部門学術講演会2019,日本知能情報ファジィ学会中国・四国支部大会などにおいて,成果発表を行った.さらに,地域の企業や大学・自治体等の方々を対象とした講演会(技術コミュニティラボ)において,「人工知能・機械学習の活用とロボティクス」という題目で招待講演を行った.
|
Strategy for Future Research Activity |
今後はまず,本研究の第一目的である「複雑な実環境での単一のロボットの行動獲得」に関して,学習の更なる高速化を実現するための手法について検討する.具体的には,現在のDQN (Deep Q-network) の代わりに,Soft Actor-Criticなどの深層強化学習の手法の導入を検討する. 次に,本研究の第二目的である「実機の群ロボットを対象とした協調行動の獲得」に関して,シミュレーション実験および実機実験をより多く実施するとともに,学習の高速化を図る手法を導入し,特に実機実験に要する時間の短縮を実現することを検討する. さらに,本研究の第三目的の「深層強化学習における行動選択の説明性の向上」に関して.引き続き検討を進める.具体的には,深層強化学習の手法として,Soft Actor-Critic手法を導入した場合におけるロボットの注視領域を可視化する手法を検討するとともに,その可視化手法の有効性に関する定量的な評価方法について検討を進める.
|
Causes of Carryover |
物品の購入で想定価格をわずかに下回るものがあり,物品費で63円の端数が発生した.次年度の物品費と合わせて,次年度における物品の購入に使用する予定である.
|