2011 年度実績報告書

音声の絶対的特徴と相対的特徴を融合した頑健で柔軟な音声情報処理技術の構築

研究課題

研究課題/領域番号	11J08960
研究機関	東京大学
研究代表者	鈴木雅之東京大学, 大学院・工学系研究科, 特別研究員(DC2)
キーワード	音声の構造的表象 / 大語彙音声認識 / CALL / Nベストリランキング / トラジェクトリHMM
研究概要	絶対・相対的特徴を融合した音声認識を実現するため、いったん音声の絶対的特徴量を用いて音声認識を行い、上位仮説をN個出力し、その後音声の相対的特徴を使って仮説をリランキングする技術を開発した。具体的には、音声の絶対的特徴として、短時間音響特徴量MFCCを隠れマルコフモデルでモデル化したものを用いて上位N仮説を出力し、音声の相対的特徴として音声の構造的表象を平均化パーセプトロンでモデル化したものを用いて仮説をリランキングした。これにより、絶対的特徴のみを用いる場合の認識精度から、10%程度の精度向上を実現した。またこの技術は、音声の構造的表象を、実用的な大語彙音声認識システムで利用することを実現した初めての技術となった。この成果を日本音響学会の全国大会で発表したところ、学生優秀発表賞を受賞することができた。相対的特徴である音声の構造的表象において、その時間変動成分を適切にモデルする手法として、「トラジェクトリ構造」と呼ぶ手法を、共同研究で開発した。従来は、MFCCの動的成分から構造的表象を抽出することで関節的に時間変動成分を取り入れていたが、トラジェクトリ構造では、構造的表象そのものの時間変動成分をモデル化している。これを先に提案したリランキング技術と組み合わせて利用したところ、精度向上が実現できた。この成果を第二著者として国際会議NCSPで発表したところ、Best Student Paper Awardを受賞することができた。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由音声の絶対的特徴と、音声の構造的表象の良いところを組み合わせた大語彙音声認識の実現は、2年間を通じた本研究の最終目標の一つであったが、当初想定していた解決策とは別の方法ではあったものの、既に実現し、精度向上まで確認できたため。加えて、共同研究者にも恵まれたため、同じ目的ではあるものの、あらかじめ計画していなかった手法(トラジェクトリ構造)を実現することができたため。
今後の研究の推進方策	今後も現状を維持して研究を推進していく。特に、大語彙音声認識に関しては、既に精度向上は実現したが、さらなる精度向上を実現するために、もとの研究計画で書いたモデル内での絶対的特徴・相対的特徴の組み合わせを実現する手法についてさらに詳しく研究していく。

研究成果
(5件)

すべて 2012 2011 その他

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (2件) 備考 (1件)

[雑誌論文] 音声の構造的表象と多段階の重回帰を用いた外国語発音評価2011
- 著者名/発表者名
  鈴木雅之, 峯松信明, 広瀬啓吉
- 雑誌名
  
  情報処理学会論文誌
  
  巻: 52 ページ: 1899-1909
- 査読あり
[雑誌論文] 音声の構造的表象に基づく学習者分類の検証と発音矯正度推定の高精度化2011
- 著者名/発表者名
  峯松信明, 鎌田圭, 朝川智, 鈴木雅之, 牧野武彦, 西村多寿子, 広瀬啓
- 雑誌名
  
  情報処理学会論文誌
  
  巻: 52 ページ: 3671-3681
- 査読あり
[学会発表] MFCC enhancement using joint corrupted and noise feature space for highly non-stationary noise environment2012
- 著者名/発表者名
  M.Suzuki, T.Yoshioka, S.Watanabe, N.Minematsu, K.
- 学会等名
  ICASSP
- 発表場所
  Japan, Kyoto
- 年月日
  2012-03-29
[学会発表] Continuous Digits Recognition Leveraging Invariant Structure2011
- 著者名/発表者名
  M.Suzuki, K.Gakuto, M.Nishimura, N.Minematsu
- 学会等名
  INTERSPEECH
- 発表場所
  Itary, Florence
- 年月日
  2011-08-31
[備考]
- URL
  http://www.gavo.t.u-tokyo.ac.jp/~suzuki

2011 年度 実績報告書

音声の絶対的特徴と相対的特徴を融合した頑健で柔軟な音声情報処理技術の構築

研究代表者

鈴木 雅之 東京大学, 大学院・工学系研究科, 特別研究員(DC2)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] 音声の構造的表象と多段階の重回帰を用いた外国語発音評価2011

著者名/発表者名

雑誌名

[雑誌論文] 音声の構造的表象に基づく学習者分類の検証と発音矯正度推定の高精度化2011

著者名/発表者名

雑誌名

[学会発表] MFCC enhancement using joint corrupted and noise feature space for highly non-stationary noise environment2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Continuous Digits Recognition Leveraging Invariant Structure2011

著者名/発表者名

学会等名

発表場所

年月日

[備考]

URL

2011 年度実績報告書

鈴木雅之東京大学, 大学院・工学系研究科, 特別研究員(DC2)