2017 Fiscal Year Annual Research Report
Pattern recognition using graph signal processing for large-scale time-sequence data
Project/Area Number |
15K12061
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
篠田 浩一 東京工業大学, 情報理工学院, 教授 (10343097)
|
Co-Investigator(Kenkyū-buntansha) |
井上 中順 東京工業大学, 情報理工学院, 助教 (10733397)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 音声認識 / 映像認識 / グラフ信号処理 |
Outline of Annual Research Achievements |
インターネット上の大量の音声・映像などの時系列データから有用な情報を抽出するためのグラフ信号処理基盤を開発する。特に特徴量空間を時間軸方向に拡張した特徴量時空間において、様々なグラフ信号処理手法を用いることにより、新たなグラフ表現(中間表現)を獲得する。従来のフレーム単位に特徴量を抽出する手法に比べ、高性能かつ高速な情報抽出を実現するとともに、様々な時間スケールの事象やその間の関係性、すなわち、パターンの構造、を解析する方法論を確立することを目的としている。 今年度は当初、音声情報処理、特に話者認識に対し、グラフ信号処理手法を適用することを検討したが、残念ながら十分な成果が出なかった。これは、グラフのノードとなる特徴を音声から抽出することが困難であること、また、近年深層学習を用いた手法が進展し、性能面でそれを上回るのが困難になってきたこと原因である。そこで、方針を転換し、従来から行ってきた、深度カメラ映像からの身振り(ジェスチャー)認識において、グラフ信号処理と深層学習とを組み合わせた手法を検討することとした。 人間の骨格の時系列グラフを入力とし、それに構造が最適化された、畳み込みニューラルネットワークを構築し、その評価を行った。撮影角度の異なる(「見え」の違う)データによる評価において、従来の深層学習を用いた方法とほぼ同等の性能を示し、また、二人の人間のインタラクションにおける動作の認識においては、従来手法を上回る性能を得た。この成果を国際会議に投稿した(2018年5月現在投稿中)。
|