2018 Fiscal Year Annual Research Report
Multimodal time-sequence data recognition platform based on deep learning
Project/Area Number |
16H02845
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
篠田 浩一 東京工業大学, 情報理工学院, 教授 (10343097)
|
Co-Investigator(Kenkyū-buntansha) |
井上 中順 東京工業大学, 情報理工学院, 助教 (10733397)
岩野 公司 東京都市大学, メディア情報学部, 教授 (90323823)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 知覚情報処理 / 音声情報処理 / 動画情報処理 / 深層学習 |
Outline of Annual Research Achievements |
本研究では、音声や動画像などからなるマルチモーダルの時系列データから有用な情報を抽出するための、深層学習を用いた高性能な情報検索基盤を構築することを目的としている。特にEnd-to-endな音声処理・動画処理を実現することを目的としている。 音声の研究では,従来の音声認識を対象とした研究とは別に、音声から感情や健康状態等などのパラ言語情報を獲得する研究に取り組んだ。従来音声認識で用いてきたRNNの代わりに、Gated CNNを用いることにより、より少量の学習データで、効率的な学習が可能な、Gated CNNを用いる手法を開発した。音声からの(書き起こしを用いない)認知症診断で高性能な識別結果を得た。時系列データの認識にGated CNNが有効であることを確認した。国際会議Interspeech2018で成果を発表した。また、従来のend-to-end音声認識の研究において、RNNに注意機構(attention)を実装し、また、その注意機構付きRNNを蒸留処理により小型化した。従来よりも10分の1のモデルサイズを達成した。認識率の劣化は7%に留まった。 動画像の認識では、動画をセグメントに分け、各々のセグメントに対してCNNを適用する方式を開発した。特に、人間の骨格構造に特化したCNNを、深度カメラの動画像からの身振り認識に適用した。カメラの撮像角度が異なる動画像が含まれるデータベースの評価において、その時点での世界最高性能を得ることができた。国際会議BMVC2018にて成果を発表した。
|
Research Progress Status |
平成30年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
平成30年度が最終年度であるため、記入しない。
|
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
[Presentation] VANT at TRECVID 20182018
Author(s)
Nakamasa Inoue, Chihiro Shiraishi, Aleksandr Drozd, Koichi Shinoda, Shi-wook Lee, Alex Chichung Kot
Organizer
TRECVID workshop
Int'l Joint Research
-
-