研究課題/領域番号 |
19K12147
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61040:ソフトコンピューティング関連
|
研究機関 | 松江工業高等専門学校 |
研究代表者 |
堀内 匡 松江工業高等専門学校, 電子制御工学科, 教授 (50294129)
|
研究分担者 |
青代 敏行 東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (40571849)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2019年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
|
キーワード | 深層強化学習 / 知能ロボティクス / 群ロボット / 行動獲得 |
研究開始時の研究の概要 |
本研究では,実環境での深層強化学習の実現と群ロボットの協調行動の獲得を目指す.実環境での深層強化学習を実現するために,「シミュレーションと実機の差異の低減手法」を導入する.その差異の低減手法として,実機ロボットに搭載したカメラの画像に対してセグメンテーション(領域分割)と低解像度化をすることで,実環境での見え方をシミュレーション環境での見え方に近づけて,実環境の複雑さを低減する.そのうえで,複数のロボットが存在する環境を想定し,群ロボットの協調行動の獲得を実現する.さらに,実社会での応用において重要となる「深層強化学習における行動選択の説明性の向上」を実現する.
|
研究実績の概要 |
本研究では,実環境での深層強化学習の実現と群ロボットの協調行動の獲得を目指す.実環境での深層強化学習を実現するために「シミュレーションと実機の差異の低減手法」を導入する.まず,本研究の第一目的として「複雑な実環境での単一のロボットの行動獲得」を実現する.室内環境を模した環境において,単一の移動ロボットの視覚情報に基づく行動獲得を深層強化学習により実現する.次に,複数のロボットが存在する環境を想定し,「実機の群ロボットを対象とした協調行動の獲得」を本研究の第二目的とする.実機の群ロボットの環境における「追い抜き行動」などの協調行動の獲得を深層強化学習により実現する.さらに,本研究の第三目的として「深層強化学習における行動選択の説明性の向上」を実現する.深層強化学習において,ロボットがカメラ画像内のどの領域に注目して行動を選択したかを明らかにする. 本年度は,第二目的である「実機の群ロボットを対象とした協調行動の獲得」および第三目的である「深層強化学習における行動選択の説明性の向上」に重点を置いて,研究を進めた.周囲360度を計測できるLiDARと汎用ロボットソフトウェアROSを搭載した車輪型移動ロボットを導入し,3台のロボットが存在する群ロボット環境において,「追い抜き行動の獲得」と「追従行動の獲得」の各タスクについて,深層強化学習としてDQN (Deep Q-network) を用いて有効性を検証した.また,深層学習の注視領域の可視化手法であるGrad-CAMと決定木学習を併用した手法を適用し,ロボットがカメラ画像内のどの領域と距離センサのどの部分に注目して行動を選択したかを検証した.しかし,コロナ禍のため,シミュレーション実験に比べて,実機実験をあまり実施できなかった.そのため,研究期間を一年間再延長し,令和5年度までとした.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
本年度は,新型コロナウィルスの影響があり,実機ロボットの環境での実験をあまり実施することができなかったが,シミュレーション環境での実験に重点を置いて研究を進める工夫をした.その結果,本研究における第二目的の「実機の群ロボットを対象とした協調行動の獲得」および第三目的の「深層強化学習における行動選択の説明性の向上」の両方に関して,研究を進め,一定の成果を上げることができた.これらの研究成果については,電気学会C部門大会,日本知能情報ファジィ学会中国・四国支部大会などの学会において,成果発表を行った. しかし,シミュレーション環境での実験に比べて,実機環境での実験をあまり多く実施できなかった.そのため,研究期間を一年間再延長し,令和5年度までとした.令和4年度に新たに導入したLiDARおよびROS (Robot Operating System) を搭載した車輪型移動ロボットについてノウハウを蓄積し,実機環境での実験をよりスムーズに実施できるようにする予定である.以上の理由により,現在までの進捗状況は「やや遅れている」と評価する.
|
今後の研究の推進方策 |
今後は,実機ロボットの環境での実験をよりスムーズに実施できるように,汎用ロボットソフトウェアであるROS(Robot Operating System)を搭載した実機ロボットを引き続き用いて,深層強化学習の手法として,DQN (Deep Q-network) に加えて,Rainbowアルゴリズムなどの発展手法をROSで実装し,実機実験を行う.ROSの利用により,シミュレーション実験と同様の方法で,従来よりも簡単に実機実験を実施できると考えている. また,本研究の第三目的である「深層強化学習における行動選択の説明性の向上」に関して,引き続き検討を進める.具体的には,深層強化学習のアルゴリズムとして,Rainbowアルゴリズムなどを導入した場合におけるロボットの注視領域を可視化する手法を検討するとともに,決定木学習による可視化との併用手法の検討および可視化手法の有効性を定量的に評価する方法の検討を進める.
|