2012 Fiscal Year Research-status Report

非示量性情報理論に基づく音声言語処理

Research Project

Project/Area Number	24650079
Research Category	Grant-in-Aid for Challenging Exploratory Research
Research Institution	Tokyo Institute of Technology
Principal Investigator	篠田浩一東京工業大学, 情報理工学(系)研究科, 准教授 (10343097)
Project Period (FY)	2012-04-01 – 2015-03-31
Keywords	音声情報処理
Research Abstract	音声言語処理に対し、従来の示量性統計理論を拡張した非示量性統計理論を適用する方法論を開発する。従来の音声言語処理は、Gibbs-Boltzmann統計に基づく確率・統計理論などの示量性理論をその基盤としている。しかし、その種の理論に基づくモデルでは、長時間相関がある時系列データなど複雑な事象をしばしば説明できないことが知られている。音声はそのような複雑事象の典型例である。最近、Tsallisは、従来の示量性理論を拡張した非示量性理論の枠組みを提案し、統計物理の分野でその有効性を示した。そこで、ここでは音声認識の耐雑音性の向上のために、Tsallisの提案する非示量性理論に基づく新しい手法を提案する。今年度は、まず、音声認識のための特徴抽出について、周囲雑音・回線などの違いから生じる変動に対し頑健な特徴量正規化手法として、q-log spectral mean subtraction (q-LMSN)手法を提案した。様々な雑音下音声のデータベースを用いて評価を行い、雑音環境下で従来よく用いられている特徴量正規化手法の一つである。Cepstral mean normalization (CMN)に比べ、優位に性能が高いことを示した。さらに、音声認識のための音響モデルにおいて、従来の代表的な手法である隠れマルコフモデル(HMM)の出力分布として、従来の混合Gauss分布に代えて、周囲雑音の変動に頑健なq-Gauss混合分布を用いる方式を提案し、これも、従来の分散の底上げに基づく方法に比べ有意に性能が高いことを示した。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason すでに、国際会議1件、ジャーナル論文1件の業績をあげた。ともにこの分野では一流の会議、論文誌である。
Strategy for Future Research Activity	周囲雑音のみならず、話者、発声スタイル、タスクなどの他の要因に対し頑健な特徴抽出法や音響モデリングを考案する。また、話者認識への適応や、音声認識や機械翻訳のための言語モデルに対する適用について、その可能性を調べる。
Expenditure Plans for the Next FY Research Funding	今年度は当初の見積もりよりも必要な計算量が少なかったため、計算を効率的に行うための計算サーバの購入を見送った。そのため次年度使用額が生じた。次年度は、応用分野が広がり計算量が大幅に増加することが見込まれるため、次年度の配分額も併せて用いて、新たに高性能な計算サーバーを購入する。また、引き続き、成果を学会や論文誌に発表するための費用が必要である。

Research Products
(3 results)

All 2013 2012

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (2 results)

[Journal Article] Feature normalization based on non-extensive statistics for speech recognition2013
- Author(s)
  Hilman F. Pardede, Koji Iwano, Koichi Shinodaa
- Journal Title
  
  Speech Commuication
  
  Volume: 55 Pages: 587-599
- DOI
  0.1016/j.specom.2013.02.004
- Peer Reviewed
[Presentation] 音声認識のためのq ガウス分布を用いた音響モデル2013
- Author(s)
  周澤西, 岩野公司, 篠田浩一
- Organizer
  日本音響学会2013年春季研究発表会
- Place of Presentation
  東京工科大学, 八王子, 東京
- Year and Date
  20130313-20130315
[Presentation] Q-Gaussian based spectral subtraction for robust speech recognition2012
- Author(s)
  Hilman F. Pardede, Koichi Shinoda and Koji Iwano
- Organizer
  INTERSPEECH2013
- Place of Presentation
  Portland, OR, U.S.A
- Year and Date
  20120909-20120913

2012 Fiscal Year Research-status Report

非示量性情報理論に基づく音声言語処理

Principal Investigator

篠田 浩一 東京工業大学, 情報理工学(系)研究科, 准教授 (10343097)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Feature normalization based on non-extensive statistics for speech recognition2013

Author(s)

Journal Title

DOI

[Presentation] 音声認識のためのq ガウス分布を用いた音響モデル2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Q-Gaussian based spectral subtraction for robust speech recognition2012

Author(s)

Organizer

Place of Presentation

Year and Date

篠田浩一東京工業大学, 情報理工学(系)研究科, 准教授 (10343097)