研究概要 |
本研究では,初期的に定義した原始動作パターンの繰り返しの中に新たな原始動作を発見するための差分エンジンの開発導入を行い,原始動作データ全体の再構造化を行うアプローチを提案する.そしてこのために,強化学習の導入により,人間の行動を上記の原始動作の重み付き重ね合わせとして適応的に構成できることを示すことを目的としている.研究計画1年目は,計画通り,HMM(隠れマルコフモデル)を用いて人間の意図的な原始動作を表現し,人間の行動を適応的に構成するための方策決定規範として強化学習を導入することにした.本研究においては,人間の全身行動の中で例えば顔の表情や手振りなど,特にどの部分に意味のある意図的な行動が表出されるかを選択的に注視できるようにするというシステムの行動が,強化学習の学習課題として与えられた.アルゴリズムの概要として,HMMの状態遷移確率をそのままTD学習におけるActor-Critic手法の報酬として定めることにより,HMM, TD学習の両者を統合的に利用することが可能となった.すなわち,HMMによって表現された事前のシミュレート経験と合致する動作に至るような注視行動をシステムがTD学習で獲得できるように,行動パターンを形成する方策を最適化できるようにした.これにより,人間による自然な歩行の追跡,手先でのサイン表示を目的とした手の振り上げ行動のズームアップ追跡,さらに,手を下ろして歩行動作に戻る手振り行動の追跡,のそれぞれを達成する方策が経験的に獲得できる結果が得られた.このとき,学習に要したエピソード回数はいずれの方策についても50回程度であり,アルゴリズムの収束性も確認できた.しかしながら,注視行動が空間的にも時間的にも離散的で,システムの精細かつ滑らかな挙動を与えることができる段階までには至らず,2年目に研究すべき項目として残された.
|