研究課題/領域番号 |
11J08960
|
研究機関 | 東京大学 |
研究代表者 |
鈴木 雅之 東京大学, 大学院・工学系研究科, 特別研究員(DC2)
|
キーワード | 音声の構造的表象 / 大語彙音声認識 / CALL / Nベストリランキング / トラジェクトリHMM |
研究概要 |
絶対・相対的特徴を融合した音声認識を実現するため、いったん音声の絶対的特徴量を用いて音声認識を行い、上位仮説をN個出力し、その後音声の相対的特徴を使って仮説をリランキングする技術を開発した。具体的には、音声の絶対的特徴として、短時間音響特徴量MFCCを隠れマルコフモデルでモデル化したものを用いて上位N仮説を出力し、音声の相対的特徴として音声の構造的表象を平均化パーセプトロンでモデル化したものを用いて仮説をリランキングした。これにより、絶対的特徴のみを用いる場合の認識精度から、10%程度の精度向上を実現した。またこの技術は、音声の構造的表象を、実用的な大語彙音声認識システムで利用することを実現した初めての技術となった。この成果を日本音響学会の全国大会で発表したところ、学生優秀発表賞を受賞することができた。相対的特徴である音声の構造的表象において、その時間変動成分を適切にモデルする手法として、「トラジェクトリ構造」と呼ぶ手法を、共同研究で開発した。従来は、MFCCの動的成分から構造的表象を抽出することで関節的に時間変動成分を取り入れていたが、トラジェクトリ構造では、構造的表象そのものの時間変動成分をモデル化している。これを先に提案したリランキング技術と組み合わせて利用したところ、精度向上が実現できた。この成果を第二著者として国際会議NCSPで発表したところ、Best Student Paper Awardを受賞することができた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
音声の絶対的特徴と、音声の構造的表象の良いところを組み合わせた大語彙音声認識の実現は、2年間を通じた本研究の最終目標の一つであったが、当初想定していた解決策とは別の方法ではあったものの、既に実現し、精度向上まで確認できたため。 加えて、共同研究者にも恵まれたため、同じ目的ではあるものの、あらかじめ計画していなかった手法(トラジェクトリ構造)を実現することができたため。
|
今後の研究の推進方策 |
今後も現状を維持して研究を推進していく。特に、大語彙音声認識に関しては、既に精度向上は実現したが、さらなる精度向上を実現するために、もとの研究計画で書いたモデル内での絶対的特徴・相対的特徴の組み合わせを実現する手法についてさらに詳しく研究していく。
|