研究課題/領域番号 |
15K12061
|
研究機関 | 東京工業大学 |
研究代表者 |
篠田 浩一 東京工業大学, 情報理工学院, 教授 (10343097)
|
研究分担者 |
井上 中順 東京工業大学, 情報理工学院, 助教 (10733397)
|
研究期間 (年度) |
2015-04-01 – 2018-03-31
|
キーワード | 音声認識 / 映像認識 / グラフ信号処理 |
研究実績の概要 |
インターネット上の大量の音声・映像などの時系列データから有用な情報を抽出するためのグラフ信号処理基盤を開発する。特に特徴量空間を時間軸方向に拡張した特徴量時空間において、様々なグラフ信号処理手法を用いることにより、新たなグラフ表現(中間表現)を獲得する。従来のフレーム単位に特徴量を抽出する手法に比べ、高性能かつ高速な情報抽出を実現するとともに、様々な時間スケールの事象やその間の関係性、すなわち、パターンの構造、を解析する方法論を確立することを目的としている。 2年目である今期は、まず、深度カメラで撮像された人間の身振り(ジェスチャー)を識別する課題において、前年度に提案した骨格グラフの時系列に対しグラフ信号処理を適用する方法の改良を行い、その成果がElsevier Computer Vision and Understanding誌に採択された。さらに、深度カメラからの骨格グラフの獲得においてしばしば誤りが起きる問題の解決を図った。具体的には、動き姿勢記述子(moving pose detector)に対し、グラフ正則化を行うことにより、誤りをある程度まで除去する。MSRA Action 3Dデータベースで評価し、その効果を確認した。アジア太平洋・信号情報処理学会(APSIPA)の国際会議理においてその成果を発表した。 来期は、音声情報処理に対し、映像処理で開発したグラフ信号処理手法を適用し、その評価を行う予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
深度カメラ映像からの身振り(ジェスチャー)認識おいて、撮像角度の異なる(「見え」の違う)データに対する性能で、世界最高の性能を達成しており、映像データに関してはほぼ研究目的は達成されたと認識している。
|
今後の研究の推進方策 |
最終年度である来年度は、映像処理で開発した手法を音声情報処理に適用し、その効果を確認する。
|
次年度使用額が生じた理由 |
音声情報処理への適用の計画通り進んでいないため。
|
次年度使用額の使用計画 |
計算機使用料の支払い、汎用GPUサーバの購入に充てる。
|