2008 Fiscal Year Annual Research Report
構造的表象に基づく音声の分析とその高頑健性音声認識への応用
Project/Area Number |
06J11711
|
Research Institution | The University of Tokyo |
Principal Investigator |
朝川 智 The University of Tokyo, 大学院・工学系研究科, 特別研究員(DC1)
|
Keywords | 音声分析 / 音声認識 / 音声の構造的表象 |
Research Abstract |
従来の音声工学では,音響音声学に基づきスペクトル(声紋)をその物理表象として用いてきたが,スペクトルには性別・年齢などの生理学的特性や収録機器などの音響的特性の違いといった非言語的特徴が音響的な歪みとして不可避的に含まれ,音声認識の頑健性を低下させる一因となっている.本研究では,スペクトルのような個々の絶対的な音響特性を直接用いず,音響事象の相対関係,即ち音声のダイナミクスのみを抽出することにより,非言語的特徴の違いによる歪みを排除して,より安定で頑健な音声的照合を行う手法を提案し,従来の方法論とは全く異なる音声認識の枠組みを検討するものである. 本年度は,昨年度において新しく提案した線形判別分析に基づく識別手法を更に高精度化し,より高い認識性能を示す識別器の構築に成功した.新たに主成分分析を組み合わせることで,日本語5母音系列連続発声の認識において約99%の認識性能を達成し,従来手法である単語HMMを越える性能を実現した.また本年度は,より一般的で実用的な認識タスクにおける実験も行った.単語音声認識研究において広く用いられている東北大松下単語音声データベースを用い,我々の提案する構造的なアプローチに基づく識別器を適用した結果,約96%の認識性能を示した.本認識タスクの単語には子音が含まれているため現状の実装での提案手法は必ずしもそれに最適ではなく,従来手法の単語HMMと比較して認識率としては及ばなかったものの,従来とは全く異なる側面から音声を捉える提案手法が,従来手法とおよそ同等の認識性能を示したことを実験的に確認した.
|
Research Products
(6 results)