本研究は動詞概念と、動作対象もしくは動作主体の名詞概念との視覚的な関係に関する分析を行い、その関係を考慮した動作モデルを学習する。このモデルを利用することで、動詞と名詞の関係を考慮した、それぞれ単独で認識していた従来の手法より精度の高い動作および物体の同時認識の実現が期待できる。 そのモデルの学習には指定キーワードに対応する動画ショットが大量に必要である。我々がすでに提案したデータ収集フレームワークを用いて100種類のキーワードに関して大規模な実験を実施し多くの動作の動画ショットが得られた。ただし、動作の多様性に対応できなかった場合もある。例えば同じ「swing」(ブランコで遊び)でも、個人で行う場合と、二人で行う場合の動作は見た目が違う。さらにどの場合でもビューポイントなどの違いによりまた動作が異なるように見えることがわかる。このように多様性の大きい動作でも今まで提案した手法を利用することよって見た目が同じのショットしか得られなかった。それで今年度は結果の精度と多様性の改善を目的とし、新しいショット選択手法を提案した。 動作の多様性に対応できるようにショットランキングの前にショットクラスタリングを行う。各クラスタは動作の異なる様相を表す。ショットランキングはクラスタごとに行われ、多くのショットと視覚的に類似したショットは上位にランキングされる。その結果、動作の様々な角度から撮った動画ショットが得られた。これらの結果はすでに国内外学会で発表し、雑誌に投稿中である。
|