2013 年度実績報告書

Deep Generative Model とその因子分解による音声情報処理基盤

研究課題

研究課題/領域番号	25280058
研究種目	基盤研究(B)
研究機関	東京工業大学
研究代表者	篠田浩一東京工業大学, 情報理工学(系)研究科, 教授 (10343097)
研究分担者	岩野公司東京都市大学, メディア学部, 准教授 (90323823) 篠崎隆宏東京工業大学, 総合理工学研究科(研究院), 准教授 (80447903)
研究期間 (年度)	2013-04-01 – 2016-03-31
キーワード	音声情報処理 / マルチモーダル処理
研究概要	様々な変動要因を含んだ大量の音声データから教師なし学習によりDeep Generative Model (DGM)を構築し、それをFactorize(要因毎に分解)することで個々の要因向けの高性能なモデルを獲得する、音声情報処理のための新しい方法論とそのための技術基盤を確立する。研究期間内ではヒューマンコミュニケーションマイニング(人間同士の対面対話からの情報抽出)を目的とし、大語彙音声認識、耐雑音音声認識、話者認識、マルチマイク音声認識、感情・意図認識、の各技術において従来技術を上回る性能を得ることを目指す。計算時間削減のためにGPGPU を用いた分散並列処理アルゴリズムを開発する。対話データベースを構築し方式評価を行う。初年度は、多くの要因を含んでいる音声データを用いて、最尤基準に基づく教師なし学習により、Deep Generative Model (DGM)を構築し、大語彙音声認識において基本性能評価を行った。また、次にAutoencoderを構成し、それをもとに各要因を分解して切り出すSiamese モデルを開発した。話者認識においてその効果を確認した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由 GPGPUサーバを購入し、研究の基盤を確立した上で、話者認識という限られた応用であるが提案法の効果を確認した。
今後の研究の推進方策	引き続きDeep Learning手法を用いた因子分解の研究を進める。特に話者適応における有効性を探求する。また、その過程で計算基盤の拡充と分散並列処理アルゴリズムの開発も行う。
次年度の研究費の使用計画	入札などの手続きが予想より時間がかかり、GPGPUサーバーの購入が予定より遅れ、1台のみしか購入できなかった。 GPGPUサーバーを購入する。

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] Combining Deep Speaker Specific Representations with GMM-SVM for Speaker Verification2013
- 著者名/発表者名
  Ryan Price, Sangeeta Biswas, Koichi Shinoda
- 学会等名
  INTERSPEECH2013
- 発表場所
  Lyon, France
- 年月日
  20130825-20130829