2012 Fiscal Year Research-status Report
Project/Area Number |
24650079
|
Research Category |
Grant-in-Aid for Challenging Exploratory Research
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
篠田 浩一 東京工業大学, 情報理工学(系)研究科, 准教授 (10343097)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 音声情報処理 |
Research Abstract |
音声言語処理に対し、従来の示量性統計理論を拡張した非示量性統計理論を適用する方法論を開発する。従来の音声言語処理は、Gibbs-Boltzmann統計に基づく確率・統計理論などの示量性理論をその基盤としている。しかし、その種の理論に基づくモデルでは、長時間相関がある時系列データなど複雑な事象をしばしば説明できないことが知られている。音声はそのような複雑事象の典型例である。最近、Tsallisは、従来の示量性理論を拡張した非示量性理論の枠組みを提案し、統計物理の分野でその有効性を示した。そこで、ここでは音声認識の耐雑音性の向上のために、Tsallisの提案する非示量性理論に基づく新しい手法を提案する。今年度は、まず、音声認識のための特徴抽出について、周囲雑音・回線などの違いから生じる変動に対し頑健な特徴量正規化手法として、q-log spectral mean subtraction (q-LMSN)手法を提案した。様々な雑音下音声のデータベースを用いて評価を行い、雑音環境下で従来よく用いられている特徴量正規化手法の一つである。Cepstral mean normalization (CMN)に比べ、優位に性能が高いことを示した。さらに、音声認識のための音響モデルにおいて、従来の代表的な手法である隠れマルコフモデル(HMM)の出力分布として、従来の混合Gauss分布に代えて、周囲雑音の変動に頑健なq-Gauss混合分布を用いる方式を提案し、これも、従来の分散の底上げに基づく方法に比べ有意に性能が高いことを示した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
すでに、国際会議1件、ジャーナル論文1件の業績をあげた。ともに この分野では一流の会議、論文誌である。
|
Strategy for Future Research Activity |
周囲雑音のみならず、話者、発声スタイル、タスクなどの他の要因に対し頑健な特徴抽出法や音響モデリングを考案する。また、話者認識への適応や、音声認識や機械翻訳のための言語モデルに対する適用について、その可能性を調べる。
|
Expenditure Plans for the Next FY Research Funding |
今年度は当初の見積もりよりも必要な計算量が少なかったため、計算を効率的に行うための計算サーバの購入を見送った。そのため次年度使用額が生じた。次年度は、応用分野が広がり計算量が大幅に増加することが見込まれるため、次年度の配分額も併せて用いて、新たに高性能な計算サーバーを購入する。また、引き続き、成果を学会や論文誌に発表するための費用が必要である。
|