研究課題/領域番号 |
15K12061
|
研究機関 | 東京工業大学 |
研究代表者 |
篠田 浩一 東京工業大学, 情報理工学(系)研究科, 教授 (10343097)
|
研究分担者 |
井上 中順 東京工業大学, 情報理工学(系)研究科, 助教 (10733397)
|
研究期間 (年度) |
2015-04-01 – 2018-03-31
|
キーワード | 音声認識 / 映像認識 / グラフ信号処理 |
研究実績の概要 |
インターネット上の大量の音声・映像などの時系列データから有用な情報を抽出するためのグラフ信号処理基盤を開発する。特徴量空間を時間軸方向に拡張した特徴量時空間において様々なグラフ信号処理手法を用いることにより、新たなグラフ表現(中間表現)を獲得する。従来のフレーム単位に特徴量を処理する手法に比べ高性能かつ高速な情報抽出を実現するとともに、様々な時間スケールの事象やその間の関係性、すなわちパターンの構造、を解析する方法論を確立する。特に研究期間内では、ジェスチャー(身振り)認識、音声認識、マルチメディアイベント検出の3つの応用について、開発・評価を行う。本研究の成果は、大規模時系列データからの情報抽出全般に対し容易に適用できる。グラフ信号処理分野の進展にも大いに寄与することが期待される。初年度である本年度は、3Dカメラから得られる映像を用いたジェスチャー認識に対し、提案するグラフ信号処理手法を適用した。そこでは、3Dデータから構築された骨格グラフと、3Dデータのクラスタリングを行うことにより得られたグラフに対し、グラフ信号処理を行う。MS Action 3D など既存の公開データを用いた評価で、従来手法と同等の性能を示した。また、撮像角度の違うデータ(「見え」の違うデータ)に対する評価では、従来手法を上回る性能を得た。この成果を論文にまとめ、論文誌 Elseveier Computer Vision and Image Understanding に投稿した(現時点では査読中)。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
ジェスチャー認識において、グラフ信号処理をする方法は、計画通り以上に進展している。3Dデータから構築された骨格グラフと、3Dデータのクラスタリングを行うことにより得られたグラフに対し、グラフ信号処理を行う手法を構築し、従来手法より高い性能を得ることができた。現在、論文誌にその成果を投稿中である。一方、音声処理については、単語グラフの構築まではできたがグラフ信号処理の適用まで進んでいない。
|
今後の研究の推進方策 |
引き続き、本手法によるジェスチャー認識の精度向上を図る。音声処理については、話者認識や音声における感情認識などの応用に使用することを検討する。また、マルチメディアイベント検出への応用のための、マルチモーダルグラフの構築方法を検討、実装する。
|
次年度使用額が生じた理由 |
GPGPUサーバの価格が円高の影響もあって高止まりし、購入ができなかった。
|
次年度使用額の使用計画 |
28年度の新規予算と合算して、GPGPUサーバーを購入する。
|