研究課題/領域番号 |
16H02845
|
研究機関 | 東京工業大学 |
研究代表者 |
篠田 浩一 東京工業大学, 情報理工学院, 教授 (10343097)
|
研究分担者 |
井上 中順 東京工業大学, 情報理工学院, 助教 (10733397)
岩野 公司 東京都市大学, メディア情報学部, 教授 (90323823)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 知覚情報処理 / 音声情報処理 / 動画情報処理 / 深層学習 |
研究実績の概要 |
本研究では、音声や動画像などからなるマルチモーダルの時系列データから有用な情報を抽出するための、深層学習を用いた高性能な情報検索基盤を構築することを目的としている。 今年度は、前年度に引き続き、音声認識の研究と動画像からのイベント抽出の研究を進めた。音声認識では,昨年度から行ってきた、複数話者の音声を分離するDNNと音声認識DNNを統合して学習するEnd-to-End学習の枠組みをさらに発展させて高性能化し、国際会議で発表した。また、Denoising Autoencoderを用いた耐雑音技術において、雑音下音声から音声を抽出するタスクと雑音を抽出するタスクの2つのタスクを同時に行う、マルチタスク学習を行い、従来法に比べ高い認識性能を得ることができた。さらに、これらの成果を音楽情報処理に応用した。より具体的には、複数楽器からなる楽曲演奏からの自動採譜において、予め学習した楽器毎のRNN音響モデルを組み合わせることで、楽器種と音高とを同時に推定する方式を開発した。加えて、口唇の深度画像の時系列信号と音声の時系列信号をともに用いることで音声認識の性能を向上させる方式を開発した。 動画からのイベント検出では、従来から行ってきたRNNの研究に対して、Connectionist Tempral Classification (CTC)を適用し、ラベル境界を必要としない認識技術を開発した。特に人間の身振り認識において、連続する動作において動作間の関係をn-gramでモデル化することにより、従来より高い性能を得ることができた。NISTが主催するTRECVIDワークショップの映像からのイベント検出のタスクにおいて世界2位の結果を得た。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
耐雑音音声認識の課題において、研究協力者の転出により開発が遅延したが、翌年に繰り越して課題を遂行し、無事本年度の目的を達成することができた。
|
今後の研究の推進方策 |
当初の計画通り、音声認識、マルチメディアイベント認識の性能向上を目指した方式開発を行う。
|