家庭内の人間の動作はプライバシーや環境セッティングのコストの問題などから計測・収集が困難である.本研究の目的は,既存の様々な小規模データセットに対して提案する行動・言語間の系列変換モデルによりバリエーションのある擬似的な動作・テキストを生成し,それらをデータセットに加えて大規模化することで動作認識の性能が向上することを明らかにすることである.人間の動作とその内容を詳細に記述したテキストの対応関係を学習し,テキストの変化に対応する普遍的な動作の差異を捉え,既存の動作に対してそれを付加することでバリエーションのある動作を増やしていく.当初の計画では,系列変換モデルの学習に必要なデータセットを効率的に作成するために,簡易的なモーションキャプチャを装着し,実際の人間の動作と家庭環境を模した仮想現実空間内にいるエージェントの動作を同期させることで計測・収集のコストを軽減する予定であったが,研究期間中に所属が変わってしまったことでその方法での実現が難しくなり,既存のデータセットを利用するだけに留めた.最終年度は本研究に専念できなかったため,研究期間全体を通した研究目的に関係する実施内容としては,生成器と識別器で構成される敵対的学習の枠組みを取り入れた行動・言語間の双方向の系列変換モデルを提案し,人間の動作を入力としてその内容を記述したテキストを出力するタスクにおいて既存手法を上回る精度を達成できた.また,生成されたテキストが詳細に動作を記述できることも確認した.当初の計画では,テキストからそれに対応する動作を生成するタスクも同様に系列変換モデルを用いた双方向生成という形で実現していく予定であったが,動作はテキストよりも多次元且つ連続的な系列データであり,提案モデルでは高精度な生成結果が得られなかった.今後の研究の展開では,動作生成は双方向生成に拘らずに既存手法を拡張して実現していく.
|