2016 Fiscal Year Annual Research Report
深層学習によるマルチモーダル時系列データ認識基盤の構築
Project/Area Number |
16H02845
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
篠田 浩一 東京工業大学, 情報理工学院, 教授 (10343097)
|
Co-Investigator(Kenkyū-buntansha) |
井上 中順 東京工業大学, 情報理工学院, 助教 (10733397)
岩野 公司 東京都市大学, メディア情報学部, 教授 (90323823)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 知覚情報処理 / 音声情報処理 / 動画情報処理 / 深層学習 |
Outline of Annual Research Achievements |
本研究の目的は、マルチメディア時系列データの高精度な認識である。認識方式として再帰型ニューラルネットワーク(recurrent neural network, RNN)を用い、音声や動画などの個々のモード毎の認識器を作り、さらにそれらを統合してEnd-to-End学習に基づくマルチモーダルな認識システムを構築する。そこでは、サイズ縮小や転移学習が重要な役割を果たす。初年度の今年度は基本方式の実装によるベースライン構築に注力した。 音響処理については以下の2つの成果があった。まず、フィードフォワード型深層ニューラルネットワーク(deep neural network, DNN)による音声認識を実装し、それに対しDistillation(蒸留)処理を行うことにより、認識性能を劣化させずにより小さいサイズのDNNを構築することに成功した。また、複数話者の音声を分離するDNNと音声認識DNNとを統合して学習するEnd-to-End学習の枠組みを構築し、個別に学習する場合よりも高い性能をもつことを確認した。 映像処理においては、TRECVID マルチメディアイベント検出(multimedia event detection, MED)に対し、畳み込みニューラルネットワーク(convolutional neural network, CNN)により抽出した特徴量を入力としたRNNを構築した。時間軸方向の相関をより精度よくモデル化するために長・短期記憶(long-short term memory, LSTM)を用い、従来手法よりも高い性能を確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
ほぼ計画通り進んでいる。音声認識のためのRNNのベースラインがまだ開発中であるが、すでに実装は終わっており、特に大きな支障はないと認識している。
|
Strategy for Future Research Activity |
当初の計画通り、音声認識、マルチメディアイベント認識、音楽における自動採譜の各々のタスクにおいて性能向上を目指した方式開発を行う。
|
-
-
-
-
-
[Presentation] Video Semantic Indexing and Localization2016
Author(s)
Koichi Shinoda
Organizer
5th Joint Meeting of the Acoustical Society of America and the Acoustical Society of Japan
Place of Presentation
Hilton Hawaiian Village, Honolulu, USA
Year and Date
2016-11-28 – 2016-12-02
Int'l Joint Research / Invited
-
[Presentation] TokyoTech at TRECVID 20162016
Author(s)
Nakamasa Inoue, Ryosuke Yamamoto, Na Rong, Koichi Shinoda
Organizer
NIST TRECVID workshop
Place of Presentation
NIST, Gaithersburg, MA, USA
Year and Date
2016-11-14 – 2016-11-16
Int'l Joint Research / Invited
-
-
-
[Presentation] Deep Learning for Speech, Image, and Video2016
Author(s)
Koichi Shinoda
Organizer
International Conference on Computer, Control, Informatics, and Its Applications (IC3INA)
Place of Presentation
Indonesia Convention Exhibition (ICE), Tangerang, Indonesia
Year and Date
2016-10-03 – 2016-10-03
Int'l Joint Research / Invited
-