研究概要 |
本研究では,高次元・連続な状態入出力を有する制御対象として自律移動ロボットをとりあげ,その感覚・行動間写像の同定に強化学習法を適用する際に問題となる,計算資源の割当て問題を解決するための一手法として,NGnetで実装したActor-Critic強化学習に学習器の構造パラメータを同時に探索する進化的recruitment戦略を導入する手法を提案した. 昨年度までに検証した提案アルゴリズムの有効性と実ロボットによる実証実験は,計測自動制御学会論文集ならびにJournal of Robotics and Autonomous Systemsに掲載された. また,本年度は学習器の構造最適化に加えて,「いかにして複雑な学習課題を効率よく学習するか?」という,学習のスケジューリングに関する研究にも同時並行して取り組んだ.発達心理学におけるpiagetの先駆的研究を参考に,人間の身体と神経系の共進化的発達と,近年,盛んに研究が行われ始めている認知発達ロボティクスの関連に着目した.すなわち,多自由度な感覚運動連関を有する移動ロボットの制御器を強化学習で学習する際に,過去の学習事例から「学習のコツ」となる拘束条件を抽出して記憶しておき,これを未学習課題の習得に拘束条件として用いることで,無駄な試行錯誤数を削減し,その結果として強化学習を高速化することができる,「拘束条件抽出型強化学習法」を提案した.
|