本研究は強化学習の目的関数を規定する報酬関数を(1) ユーザが与える疎な外的報酬と、(2) ロボットと環境の相互作用から自律的に構築される詳細な内的報酬に分割して扱う新しい報酬関数の設計論を提案する。 最終的に密度比推定を用いた逆強化学習法のアルゴリズムを開発できた。これは学習前後の確率的制御則の比率が報酬によって表現できることを利用している。人の倒立振子の学習やラットのレバー押し課題に適用し、適切な報酬が推定できることを確認した。さらに推定した報酬をもとに順強化学習を用いて行動を再現する際に、提案手法が同時に推定している価値関数を用いることで学習スピードが大幅に改善されることを示した。アルゴリズムの基本的な部分はICDL-EpiRob 2014の口頭発表として選ばれ、PCT出願(国際特許出願)した。現在、目的関数を修正することで計算コストの低減と推定精度の改善を実現した本年度提案したアルゴリズムの改良版を国際英語論文誌に登校中である。 ただし提案手法によって推定された報酬は内的報酬と外的報酬の和であって、両者を分割することはできなかった。ロボットの制御則を学習させることが最終目的である場合は現状でも問題ないが、人や動物の行動の原因を解析するためには報酬関数の近似器を工夫する必要があることが判明した。 また、使用していたロボットのパーツが製造中止になったことに伴い、使用するロボットを変更しなければならなかった。結果として申請時の予定には含まれなかった新しいロボットの開発をする必要があり、そのために予定外の時間を要した。新しいロボットはアンドロイドスマートフォンをベースにした安価なシステムであり、パーツの製造中止にも柔軟に対応できるものである。これは次年度以降の研究において非常に重要な成果であった。
|