2013 Fiscal Year Annual Research Report
Deep Generative Model とその因子分解による音声情報処理基盤
Project/Area Number |
25280058
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
篠田 浩一 東京工業大学, 情報理工学(系)研究科, 教授 (10343097)
|
Co-Investigator(Kenkyū-buntansha) |
岩野 公司 東京都市大学, メディア学部, 准教授 (90323823)
篠崎 隆宏 東京工業大学, 総合理工学研究科(研究院), 准教授 (80447903)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 音声情報処理 / マルチモーダル処理 |
Research Abstract |
様々な変動要因を含んだ大量の音声データから教師なし学習によりDeep Generative Model (DGM)を構築し、それをFactorize(要因毎に分解)することで個々の要因向けの高性能なモデルを獲得する、音声情報処理のための新しい方法論とそのための技術基盤を確立する。研究期間内ではヒューマンコミュニケーションマイニング(人間同士の対面対話からの情報抽出)を目的とし、大語彙音声認識、耐雑音音声認識、話者認識、マルチマイク音声認識、感情・意図認識、の各技術において従来技術を上回る性能を得ることを目指す。計算時間削減のためにGPGPU を用いた分散並列処理アルゴリズムを開発する。対話データベースを構築し方式評価を行う。 初年度は、多くの要因を含んでいる音声データを用いて、最尤基準に基づく教師なし学習により、Deep Generative Model (DGM)を構築し、大語彙音声認識において基本性能評価を行った。また、次にAutoencoderを構成し、それをもとに各要因を分解して切り出すSiamese モデルを開発した。話者認識においてその効果を確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
GPGPUサーバを購入し、研究の基盤を確立した上で、話者認識という限られた応用であるが提案法の効果を確認した。
|
Strategy for Future Research Activity |
引き続きDeep Learning手法を用いた因子分解の研究を進める。特に話者適応における有効性を探求する。また、その過程で計算基盤の拡充と分散並列処理アルゴリズムの開発も行う。
|
Expenditure Plans for the Next FY Research Funding |
入札などの手続きが予想より時間がかかり、GPGPUサーバーの購入が予定より遅れ、1台のみしか購入できなかった。 GPGPUサーバーを購入する。
|