2014 Fiscal Year Annual Research Report
動作主体と動作対象の視覚的な関係を考慮した動作認識モデルの提案
Project/Area Number |
14J11435
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
DO HangNga 電気通信大学, 情報理工学研究科, 特別研究員(DC2)
|
Project Period (FY) |
2014-04-25 – 2016-03-31
|
Keywords | データの多様性 / 大規模なデータ |
Outline of Annual Research Achievements |
本研究は動詞概念と、動作対象もしくは動作主体の名詞概念との視覚的な関係に関する分析を行い、その関係を考慮した動作モデルを提案する。このモデルを利用することで、動詞と名詞の関係を考慮した、それぞれ単独で認識していた従来の手法よりも精度の高い動作および物体の同時認識の実現が期待できる。 そのモデルの学習には指定キーワードに対応する動画ショットが大量に必要である。我々がすでに提案したデータ収集フレームワークを用いて100種類のキーワードに関して大規模な実験を実施し多くの動作の動画ショットが得られた。ただし、動作の多様性に対応できなかった場合がある。例えば同じ「縄跳び」でも、個人で行う場合と、グループで行う場合の動作は見た目が違う。さらにどの場合でもビューポイントなどの違いによりまた動作が異なるように見えることがわかる。それで前年度は収集データの精度と多様性の改善を目的とし、新しい視覚特徴およびショット選択手法を提案した。 視覚特徴として提案フレームワークでは既存の時空間特徴を利用した。この既存の特徴の抽出し方を改良、デンスサンプリングでより多くの特徴点を得られることになった。また、手動きに注目した特徴も抽出した。新しい視覚特徴を利用することによって精度がよくなかった動作の多くは大幅に改良できた。これらの成果はすでに国際会議で発表し、国際雑誌に投稿中である。 動作の多様性に対応できるようにショットランキングの前にショットクラスタリングを行う。各クラスタは動作の異なる様相を表す。ショットランキングはクラスタごとに行われ、多くのショットと視覚的に類似したショットは上位にランキングされる。その結果、動作の様々な角度から撮った動画ショットが得られた。これらの成果は現在国際学会に投稿中である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
前年度は期待通りに研究が進展した。Computer Vision and Image Understanding誌に発表した成果を基本にしてその発展的研究を行った。その成果を国内外の学会2件において発表するとともに、周辺研究についての解説論文をまとめた。現在、自分を筆頭著者とする2報目の原著論文を投稿中である。本年度の計画した研究内容にしたがって大規模のデータを準備中である。 本研究は動作主体と動作対象の関係を考慮した動作認識モデルを構成することを目的とする。高性能の認識モデルを学習するには高精度で多様性が大きいデータセットが必要である。前年度では提案の改良によってデータの精度と多様性を大幅に改善できた。本研究は従来なかったもので、収集できたデータに対して、提案手法を適用することによって初めて得られる結果であると期待できる。
|
Strategy for Future Research Activity |
前年度は大量に存在するWeb動画を用いた動画ショット収集作業を行った。本年度は収集できたWeb動画データセットを用いて提案モデルを学習する。そして、構築した動作と物体の関係を考慮した確率モデルを利用して、動詞概念・名詞概念の視覚的関係について、大規模に分析を行う予定である。 具体的には、動詞概念・名詞概念の組み合わせの視覚的な関係を分析するために、クエリワード毎に抽出した対応ショットの特徴量の分布をPLSA(Probabilistic Latent Semantic Analysis)もしくはLDA(Latent Dirichlet Allocation)を拡張した新しく提案する確率生成モデルを用いて表現する。そして、エントロピーや相互情報量などの基準を用いて、様々な動詞概念・名詞概念の組み合せについて分布の違いの定量的な分析を行う。「食べる」の例でいうと食べ物による食べ方の相違点と共通点がわかるようになる。 さらに、得られた動作モデルを動作認識あるいは物体認識のシステムに適用してそのモデルの有効性の検証を行う。例えば、「食べる」動作モデルの応用例としては「食べ方を考慮した食品認識システム」が考えられる。このシステムは従来の食品の特徴のみによる食品認識システムより性能が高いことが期待できる。 実験では、動詞毎に分けてモデル学習を行う場合と、様々な動作をすべてまとめて学習する2通りを実験する予定である。後者の場合、学習データ量が多くなるが、異なる動詞であっても、動作が同じである場合には同じカテゴリとして検出されるので、名詞概念と動詞概念の関係分析の結果としては新しい結果が得られる可能性がある。
|
Research Products
(2 results)