研究課題/領域番号 |
25280058
|
研究機関 | 東京工業大学 |
研究代表者 |
篠田 浩一 東京工業大学, 情報理工学(系)研究科, 教授 (10343097)
|
研究分担者 |
岩野 公司 東京都市大学, メディア学部, 准教授 (90323823)
篠崎 隆宏 東京工業大学, 総合理工学研究科(研究院), 准教授 (80447903)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 音声情報処理 / マルチモーダル処理 |
研究実績の概要 |
様々な要因を含んだ大量の音声データから教師なし学習によりDeep Generative Model (DGM)を構築し、それをFactorize(要因毎に分解)することで個々の要因向けの高性能なモデルを獲得する、音声情報処理のための新しい方法論とそのための技術基盤を確立する。研究期間内ではヒューマンコミュニケーションマイニング(人間同士の対面対話からの情報抽出)を目的とし、大語彙音声認識、耐雑音音声認識、話者認識、マルチマイク音声認識、感情・意図認識、の各技術において従来技術を上回る性能を得ることを目指す。計算時間削減のためにGPGPU を用いた分散並列処理アルゴリズムを開発する。対話データベースを構築し方式評価を行う。初年度である昨年度は、多くの要因を含んでいる音声データを用いて、最尤基準に基づく教師なし学習により、Deep Generative Model (DGM)を構築し、大語彙音声認識において基本性能評価を行った。また、次にAutoencoderを構成し、それをもとに各要因を分解して切り出すSiamese モデルを開発した。話者認識においてその効果を確認した。今年度は、音声認識のための、話者の少数の発声を用いてシステムを話者に適応させる話者適応の方式を開発した。そこでは、音声における話者性を表す特徴と音韻性を表す特徴をFactorizeする必要がある。その目的のため、従来、triphoneを用いていた音韻特徴に対し、monophoneからの制約を加えることで、より話者性を分離できるアルゴリズムを開発し、その効果を実験で確認した。また、マルチモーダル処理のために、DNNを用いた映像のセマンティックインデキシング、映像からのイベント検出の実装・評価を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
初年度は話者認識に限られていた応用分野を、音声認識にまで広げ、特に、音声認識の話者適応手法を実装・評価し、その効果を確認している。
|
今後の研究の推進方策 |
因子分解を用いた手法を、一般の大語彙音声認識に適応する。また、音声と画像とをともに用いたマルチモーダル処理における因子分解を試みる。
|
次年度使用額が生じた理由 |
計算効率を向上させるためGPUサーバを複数購入する予定にしていたが、円安などの理由により、購入を予定していた製品の価格が予想より高くなり、よりスペックが劣るものを1台しか購入できなかった。
|
次年度使用額の使用計画 |
今年度の新しい予算と合わせ、購入を予定していたGPUサーバを購入する。
|