研究実績の概要 |
本研究の目的は、マルチメディア時系列データの高精度な認識である。認識方式として再帰型ニューラルネットワーク(recurrent neural network, RNN)を用い、音声や動画などの個々のモード毎の認識器を作り、さらにそれらを統合してEnd-to-End学習に基づくマルチモーダルな認識システムを構築する。そこでは、サイズ縮小や転移学習が重要な役割を果たす。初年度の今年度は基本方式の実装によるベースライン構築に注力した。 音響処理については以下の2つの成果があった。まず、フィードフォワード型深層ニューラルネットワーク(deep neural network, DNN)による音声認識を実装し、それに対しDistillation(蒸留)処理を行うことにより、認識性能を劣化させずにより小さいサイズのDNNを構築することに成功した。また、複数話者の音声を分離するDNNと音声認識DNNとを統合して学習するEnd-to-End学習の枠組みを構築し、個別に学習する場合よりも高い性能をもつことを確認した。 映像処理においては、TRECVID マルチメディアイベント検出(multimedia event detection, MED)に対し、畳み込みニューラルネットワーク(convolutional neural network, CNN)により抽出した特徴量を入力としたRNNを構築した。時間軸方向の相関をより精度よくモデル化するために長・短期記憶(long-short term memory, LSTM)を用い、従来手法よりも高い性能を確認した。
|