研究課題/領域番号 |
24650079
|
研究機関 | 東京工業大学 |
研究代表者 |
篠田 浩一 東京工業大学, 情報理工学(系)研究科, 教授 (10343097)
|
キーワード | 音声情報処理 / 画像情報処理 |
研究概要 |
音声言語処理に対し、従来の資料性統計理論を拡張した非示量性統計理論を適用する方法論を開発する。非示量性理論は、示量性理論があてはまらないことが多い、長時間相関がある時系列データなど複雑な事象のモデル化に有効であることが知られている。ここでは Tsallisの提案する非示量性理論の枠組みを採用する。前年度に、まず、音声認識のための特徴抽出について、周囲雑音・回線などの違いから生じる変動に対し頑健な手法として、q-log spectral mean subtraction (q-LMSN)手法を提案し、雑音環境下で従来よく用い られているCepstral mean normalization (CMN)に比べ、有意性能が高いことを示した。また、音声認識のための音響モデリングにおいて、隠れマルコフモデル(HMM)の出力ガウス分布として、周囲雑音の変動に頑健なq-Gauss混合分布を用いる方式を提案し、これも 、従来の分散の底上げに基づく方法に比べ有意に性能が高いことを示した。これらの結果を受け、今年度は、対象を画像・映像処理に広げ、画像における一般物体認識、および、映像の意味インデクシングにおいて、やはりq-Gauss混合分布を用いた手法が、従来のGauss混合分布を用いた方法に比べ有意に性能が高いことを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
前年度に確立した方式を新たな対象へと適用し、そこでも有効性を確認している。
|
今後の研究の推進方策 |
更に、周囲雑音以外の、話者、発話スタイル、タスクの違いに対し頑健な特徴抽出手法、音響モデリングを開発する。他のメディアへの応用も引き続き検討する。
|
次年度の研究費の使用計画 |
購入を予定していた計算サーバが予想よりも安価に購入できたため 引き続き計算サーバの増強を行う。
|