2011 Fiscal Year Research-status Report
模倣学習と強化学習の融合による複数行動の効率的獲得
Project/Area Number |
23560491
|
Research Institution | Matsue National College of Technology |
Principal Investigator |
堀内 匡 松江工業高等専門学校, 電子制御工学科, 准教授 (50294129)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 聡 松江工業高等専門学校, 情報工学科, 准教授 (40342547)
|
Project Period (FY) |
2011-04-28 – 2014-03-31
|
Keywords | 知能ロボティクス / 模倣学習 / 強化学習 / 行動獲得 / 複数タスク |
Research Abstract |
本研究では,実ロボットを対象として,模倣学習と強化学習を融合した枠組みによる複数行動の効率的獲得の実現を目指している.実ロボットとして,LEGO社のMindstorms NXTで組み立てた歩容ロボットおよびROBOTIS社のBioloidで組み立てた歩容ロボットの二種類のロボットを対象とする.まず,単一の行動タスクに対する模倣学習と強化学習の融合による効率的な行動獲得の実現を第一の目的とする.さらに,第二目的として,複数の行動タスクを考え,それらのタスクに対する模倣学習と強化学習の融合による多様な行動の獲得を実現する. 本年度は,本研究の第一目的である「単一タスクに対する模倣学習と強化学習の融合による行動獲得」に重点を置いて,研究実施計画に基づき研究を進めた.具体的には,LEGO Mindstorms NXTで組み立てた1自由度の尺取虫型ロボットを対象として,Webカメラを用いた観察模倣とニューラルネットワークを用いた学習により,リアルタイムでの模倣学習を実現した.さらに,ROBOTIS Bioloidで組み立てた2自由度の尺取虫型ロボットを対象として,Webカメラを用いた観察に基づく模倣を実現するとともに,模倣学習で獲得した行動知識をもとにした強化学習の導入について検討した.また,両腕を使って前進する歩容ロボットをLEGO Mindstorms NXTで組み立て,強化学習により前進行動を獲得することを実現するとともに,模倣学習との融合について検討した.これらの成果に関して,国際会議International Conference on Innovative Computing, Information and Controlおよび電気学会電子・情報・システム部門大会,ファジィシステムシンポジウム,自動制御連合講演会などにおいて成果発表を行なった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では,実ロボットを対象として,模倣学習と強化学習を融合した枠組みによる複数行動の効率的獲得の実現を目指している.本年度は本研究の第一目的である「単一タスクに対する模倣学習と強化学習の融合による行動獲得」に重点を置いて研究を進めた.本年度の研究実施計画に基づき,まずLEGO Mindstorms NXTおよびROBOTIS Bioloidで二種類の尺取虫型ロボットをそれぞれ二体ずつ組み立て,教示者ロボットと学習者ロボットを準備した.次に,教示者ロボットが効率良く前進する行動パターンをWebカメラにより観測し,模倣学習を実現した.さらに,模倣学習で獲得した行動知識を行動価値関数に反映した強化学習の導入について検討した.また,両腕を使って前進する歩容ロボットをLEGO Mindstorms NXTで組み立て,強化学習により前進行動を獲得することを実現し,模倣学習との融合について検討した.以上の研究の進捗状況を踏まえ,現在までの達成度については,おおむね順調に進展していると言える.
|
Strategy for Future Research Activity |
今後は,まず本研究の第一目的である「単一タスクに対する模倣学習と強化学習の融合による行動獲得」に関して,本年度に検討した模倣学習と強化学習の融合の実現を引き続き進める.さらに,本研究の第二目的である「複数タスクに対する模倣学習と強化学習の融合による行動獲得」を実現するために,リカレント型ニューラルネットワークの一つであるRNNPBを用いた複数の行動タスクの学習,非線形力学系を用いた運動学習プリミティブによる複数パターンの学習,の二つの手法について検討する.実ロボットはROBOTIS社のBioloidで組み立て,複数の行動タスクに対する模倣学習と強化学習の融合による行動獲得の実験を実施し,実ロボットに対する有効性を検証する.
|
Expenditure Plans for the Next FY Research Funding |
次年度に使用する予定の研究費として137,925円が生じたのは,成果発表を行った国際会議が本年度は日本で開催されたために,旅費が計画を下回ったことが大きな理由として考えられる.次年度は,海外で開催される国際会議での成果発表および国内での複数の学会における成果発表を検討しており,上記の次年度使用額の研究費は,翌年度以降に請求する研究費における旅費と合わせて,主に成果発表のための旅費として使用する計画である. 旅費以外の物品費とその他の費用については,交付申請書に記載した経費の計画に基づいて使用する予定である.一式の価格が50万円以上の物品を購入する計画はない.また,人件費・謝金についても支出しない計画である.
|