2014 Fiscal Year Annual Research Report
Deep Generative Model とその因子分解による音声情報処理基盤
Project/Area Number |
25280058
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
篠田 浩一 東京工業大学, 情報理工学(系)研究科, 教授 (10343097)
|
Co-Investigator(Kenkyū-buntansha) |
岩野 公司 東京都市大学, メディア学部, 准教授 (90323823)
篠崎 隆宏 東京工業大学, 総合理工学研究科(研究院), 准教授 (80447903)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 音声情報処理 / マルチモーダル処理 |
Outline of Annual Research Achievements |
様々な要因を含んだ大量の音声データから教師なし学習によりDeep Generative Model (DGM)を構築し、それをFactorize(要因毎に分解)することで個々の要因向けの高性能なモデルを獲得する、音声情報処理のための新しい方法論とそのための技術基盤を確立する。研究期間内ではヒューマンコミュニケーションマイニング(人間同士の対面対話からの情報抽出)を目的とし、大語彙音声認識、耐雑音音声認識、話者認識、マルチマイク音声認識、感情・意図認識、の各技術において従来技術を上回る性能を得ることを目指す。計算時間削減のためにGPGPU を用いた分散並列処理アルゴリズムを開発する。対話データベースを構築し方式評価を行う。初年度である昨年度は、多くの要因を含んでいる音声データを用いて、最尤基準に基づく教師なし学習により、Deep Generative Model (DGM)を構築し、大語彙音声認識において基本性能評価を行った。また、次にAutoencoderを構成し、それをもとに各要因を分解して切り出すSiamese モデルを開発した。話者認識においてその効果を確認した。今年度は、音声認識のための、話者の少数の発声を用いてシステムを話者に適応させる話者適応の方式を開発した。そこでは、音声における話者性を表す特徴と音韻性を表す特徴をFactorizeする必要がある。その目的のため、従来、triphoneを用いていた音韻特徴に対し、monophoneからの制約を加えることで、より話者性を分離できるアルゴリズムを開発し、その効果を実験で確認した。また、マルチモーダル処理のために、DNNを用いた映像のセマンティックインデキシング、映像からのイベント検出の実装・評価を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度は話者認識に限られていた応用分野を、音声認識にまで広げ、特に、音声認識の話者適応手法を実装・評価し、その効果を確認している。
|
Strategy for Future Research Activity |
因子分解を用いた手法を、一般の大語彙音声認識に適応する。また、音声と画像とをともに用いたマルチモーダル処理における因子分解を試みる。
|
Causes of Carryover |
計算効率を向上させるためGPUサーバを複数購入する予定にしていたが、円安などの理由により、購入を予定していた製品の価格が予想より高くなり、よりスペックが劣るものを1台しか購入できなかった。
|
Expenditure Plan for Carryover Budget |
今年度の新しい予算と合わせ、購入を予定していたGPUサーバを購入する。
|
-
-
-
-
[Presentation] TokyoTech-Waseda at TRECVID 20142014
Author(s)
Nakamasa Inoue, Zhuolin Liang, Mengxi Lin, Tran Hai Dang, Koichi Shinoda, Zhang Xuefeng, Kazuya Ueki
Organizer
NIST TRECVID workshop 2014
Place of Presentation
セントラルフロリダ大学(米国)
Year and Date
2014-11-10 – 2014-11-12
-