2018 Fiscal Year Annual Research Report
Apprenticeship learning for heterogeneous robots
Project/Area Number |
16K16132
|
Research Institution | Meijo University |
Principal Investigator |
増山 岳人 名城大学, 理工学部, 准教授 (20707088)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 逆強化学習 / 強化学習 |
Outline of Annual Research Achievements |
前年度に開発した手法では,与えられる身体及び環境が異なる2つのロボット間での知識転移という問題に対し,事前に与えられる対応点から特徴写像を学習するというアプローチをとった.しかし,十分な対応点を用意するために要する人的コストがボトルネックとなることが想定され,特に2つのロボットのもつ身体特性及び環境に大きな乖離がある場合には,主観的にも対応点を選ぶことが難しいという課題が残った. そこで,今年度は対応点などの事前知識を利用することなく,非同一ロボット間での知識転移を実現する手法の考案を目標とした.具体的なアプローチは,画像認識分野で開発されたNet2Netと呼ばれる手法を拡張するものである.Net2Netでは予め学習した比較的単純なネットワーク(ソースネットワーク)に,中間層または中間層のノードを新たに追加したネットワーク(ターゲットネットワーク)を構成し再学習を行う.これにより,ネットワークの表現能力を向上し,学習器の精度向上を実現する.本研究課題では,身体構造の違いにより生じる入出力の追加を行いその有効性を検証した.転移元ロボットの制御則を学習したソースネットワークのパラメータを,ターゲットネットワークでも利用する.入出力の追加に伴い新たに初期化が必要となるパラメータに関しては,ソースネットワークの各種統計量を用いた複数の初期化法を実装し,検証を行った.これらの初期パラメータを用いて強化学習によりターゲットネットワークの学習を行うことで,学習時間の短縮効果が得られることを確認した. 考案した手法が適切に動作するためには,2つのロボットの身体構造に一定の類似性(例えばどちらもマニピュレータでリンク数などが異なる)が求められると考える.現段階ではパラメータ初期化法は発見的であるため,2つのロボットのもつ差異とそれに適した初期パラメータを与えるための評価指標の検討が必要である.
|
Research Products
(1 results)