大規模画像・映像セットにおける高精度且つ高速な画像理解フレームワークを実現した。研究実績は以下の四点がある。 1.局所的な特徴の統一的記述枠組の開発:画像からSIFT局所記述子だけではなく、色やテクスチャの局所特徴を抽出し、別々に記述するのではなく一つのテンソル(Tensor)として取り扱い、統一的に効率よく記述する枠組(Framework)を開発した。 2.局所特徴テンソルから多次元多様体学習を用いて認識に有用なコア情報の抽出を行った。本研究では画像から大量な局所的な特徴を融合するため多次元教師付部分空間法(多次元多様体学習-MSNE)を提案し、シーン、物体等への認識応用において高精度な認識率をえることを検証した。 3.画像からhand-craftな局所特徴(SIFT SURFなど)を抽出するだけではなく、簡単且つ効率に得られるRaw特徴(色輝度値、勾配、方向、マイクロ-ストラクチャ等)に対して、データ駆動モデル(K-means、GMM、sparse coding)を用いて解析し、より高速且つ効率的な画像記述を行った。また、データ駆動モデルに基づく、局所やRaw特徴の低次統計量(分布情報)だけではなく、高次統計量(モデルのパラメータに対しての偏移統計量)を計算し、より高次な画像表現手法を開発した。 4.提案した手法を用いて大規模画像・映像認識、理解デモ用のアプリケーションを開発した。
|