2018 年度実績報告書

非同一マルコフ決定過程間での徒弟学習によるロボットの行動学習

研究課題

研究課題/領域番号	16K16132
研究機関	名城大学
研究代表者	増山岳人名城大学, 理工学部, 准教授 (20707088)
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	逆強化学習 / 強化学習
研究実績の概要	前年度に開発した手法では，与えられる身体及び環境が異なる2つのロボット間での知識転移という問題に対し，事前に与えられる対応点から特徴写像を学習するというアプローチをとった．しかし，十分な対応点を用意するために要する人的コストがボトルネックとなることが想定され，特に2つのロボットのもつ身体特性及び環境に大きな乖離がある場合には，主観的にも対応点を選ぶことが難しいという課題が残った．そこで，今年度は対応点などの事前知識を利用することなく，非同一ロボット間での知識転移を実現する手法の考案を目標とした．具体的なアプローチは，画像認識分野で開発されたNet2Netと呼ばれる手法を拡張するものである．Net2Netでは予め学習した比較的単純なネットワーク（ソースネットワーク）に，中間層または中間層のノードを新たに追加したネットワーク（ターゲットネットワーク）を構成し再学習を行う．これにより，ネットワークの表現能力を向上し，学習器の精度向上を実現する．本研究課題では，身体構造の違いにより生じる入出力の追加を行いその有効性を検証した．転移元ロボットの制御則を学習したソースネットワークのパラメータを，ターゲットネットワークでも利用する．入出力の追加に伴い新たに初期化が必要となるパラメータに関しては，ソースネットワークの各種統計量を用いた複数の初期化法を実装し，検証を行った．これらの初期パラメータを用いて強化学習によりターゲットネットワークの学習を行うことで，学習時間の短縮効果が得られることを確認した．考案した手法が適切に動作するためには，2つのロボットの身体構造に一定の類似性（例えばどちらもマニピュレータでリンク数などが異なる）が求められると考える．現段階ではパラメータ初期化法は発見的であるため，2つのロボットのもつ差異とそれに適した初期パラメータを与えるための評価指標の検討が必要である．

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] 軌道のスコアに基づく逆強化学習を用いた非線形な報酬関数の推定2018
- 著者名/発表者名
  渡邉夏美, 増山岳人, 梅田和昇
- 学会等名
  2018年度人工知能学会全国大会