2003 Fiscal Year Annual Research Report

音声・言語現象の個人性モデルに基づく対話音声理解システムの開発

Research Project

Project/Area Number	14780272
Research Institution	Shizuoka University
Principal Investigator	甲斐充彦静岡大学, 工学部, 助教授 (60283496)
Keywords	対話音声認識 / 韻律特徴 / 訂正発話 / 定型表現 / スポッティング / フィラー
Research Abstract	今年度は以下の内容に関して研究を行った。・話し言葉における定型的な表現の検証による音声認識アルゴリズムの開発と評価・対話音声における繰り返しの訂正発話、フィラー等の音響・韻律的特徴分析および応用前者は、話し言葉の音声認識では話者特有の言語表現が従来の音声認識システムにおいて性能劣化に大きく影響することから、その改善法として検討した。その実現方法として、音声認識の誤りが起こり易い言語表現で出現頻度が一定以上の形態素列を定型的表現として抽出した後、大語彙音声認識アルゴリズムの1-best近似探索法を応用したスポッティング法により検証する方法を提案した。語彙サイズが約1万4千単語の話し言葉の大語彙連続音声認識タスクの評価実験において、まずポーズ区切りの末尾部分の定型的表現部分のみを対象とした。結果として、従来の単語bigramのみでの音声認識性能に対して顕著に性能が改善された。また単語trigramを用いた場合に性能が低下していた話者に対しても効果がみられた。また後者については、前年度に引き続いて、訂正発話の音響・韻律的特徴をそれぞれDPマッチング法及び決定木を用いて表現して検証する方法に関して、個人性を考慮した分析及び韻律特徴パターンの統計的なモデル化を行った。また、フィラーについて100話者以上の話し言葉から該当部分を抽出し、フィラー前後との文脈を考慮した分析およザ統計的モデル化を行った。これらにより、前年度までの検証法との比較評価を行い、これまでの性能を更に改善することを今後検討する。