本研究課題は人間のフレキシブルな意思決定に習うことで,学習のために膨大なサンプリング数(試行時間)を必要とする強化学習の問題に対処することを目的としていた.このような問題は試行時間が短く済む『速さ』と結果の『正確さ』の間にあるトレードオフに起因する.本研究では具体的に人間の因果関係の強さの推定と高い相関を持つ価値関数(LS)を用いることで,意思決定のトレードオフに対処しようとした. 前年度の研究により, LS 価値関数は人間の満足化方策と関連が強いために,正確さには固執しないフレキシブルさを実現しているということがわかり,この観点から LS 価値関数を拡張した(LS-VR,LSX).満足化は基準値という目的値を設定することによって,正確さへの固執を緩めることでトレードオフを回避している.また前述の LS の拡張価値関数では基準値を適切に設定することで,正確さへの固執,すなわち最適化を非常に素早くできることがわかった.今年度の成果の一つは以上の結果を英文ジャーナルとして投稿したことにある.また満足化の利点として非定常環境に対する対処が最適化よりも優れており,非定常環境に対処する既存のメタバンディットアルゴリズムより良い成績を有することを示した. 前年度までの LS 価値関数は即時的で確率的な報酬の生起/不生起のみを扱う多本腕バンディット問題のみを扱っていた.本年度は長期的な試行錯誤を必要とする報酬や複雑な環境を想定したより一般的な強化学習へのLS価値関数の拡張を行った(RLLS 価値関数).具体的には複雑な物理ダイナミクスを持つ運動制御課題(大車輪運動)に RLLS 価値関数を用いて行い,他のアルゴリズムが非常に狭い範囲でのパラメータでしか正しい運動制御を学習できないのに対して, RLLS 価値関数は広いパラメータの範囲で,かつ素早く学習できる事がわかった.
|