2015 Fiscal Year Research-status Report

大規模時系列データに対するパターン認識のためのグラフ信号処理基盤

Research Project

Project/Area Number	15K12061
Research Institution	Tokyo Institute of Technology
Principal Investigator	篠田浩一東京工業大学, 情報理工学(系)研究科, 教授 (10343097)
Co-Investigator(Kenkyū-buntansha)	井上中順東京工業大学, 情報理工学(系)研究科, 助教 (10733397)
Project Period (FY)	2015-04-01 – 2018-03-31
Keywords	音声認識 / 映像認識 / グラフ信号処理
Outline of Annual Research Achievements	インターネット上の大量の音声・映像などの時系列データから有用な情報を抽出するためのグラフ信号処理基盤を開発する。特徴量空間を時間軸方向に拡張した特徴量時空間において様々なグラフ信号処理手法を用いることにより、新たなグラフ表現(中間表現)を獲得する。従来のフレーム単位に特徴量を処理する手法に比べ高性能かつ高速な情報抽出を実現するとともに、様々な時間スケールの事象やその間の関係性、すなわちパターンの構造、を解析する方法論を確立する。特に研究期間内では、ジェスチャー(身振り)認識、音声認識、マルチメディアイベント検出の3つの応用について、開発・評価を行う。本研究の成果は、大規模時系列データからの情報抽出全般に対し容易に適用できる。グラフ信号処理分野の進展にも大いに寄与することが期待される。初年度である本年度は、3Dカメラから得られる映像を用いたジェスチャー認識に対し、提案するグラフ信号処理手法を適用した。そこでは、3Dデータから構築された骨格グラフと、3Dデータのクラスタリングを行うことにより得られたグラフに対し、グラフ信号処理を行う。MS Action 3D など既存の公開データを用いた評価で、従来手法と同等の性能を示した。また、撮像角度の違うデータ（「見え」の違うデータ）に対する評価では、従来手法を上回る性能を得た。この成果を論文にまとめ、論文誌 Elseveier Computer Vision and Image Understanding に投稿した（現時点では査読中)。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason ジェスチャー認識において、グラフ信号処理をする方法は、計画通り以上に進展している。3Dデータから構築された骨格グラフと、3Dデータのクラスタリングを行うことにより得られたグラフに対し、グラフ信号処理を行う手法を構築し、従来手法より高い性能を得ることができた。現在、論文誌にその成果を投稿中である。一方、音声処理については、単語グラフの構築まではできたがグラフ信号処理の適用まで進んでいない。
Strategy for Future Research Activity	引き続き、本手法によるジェスチャー認識の精度向上を図る。音声処理については、話者認識や音声における感情認識などの応用に使用することを検討する。また、マルチメディアイベント検出への応用のための、マルチモーダルグラフの構築方法を検討、実装する。
Causes of Carryover	GPGPUサーバの価格が円高の影響もあって高止まりし、購入ができなかった。
Expenditure Plan for Carryover Budget	28年度の新規予算と合算して、GPGPUサーバーを購入する。