最終年度にあたる本年度は前年度までの研究成果を踏まえ、音韻認識と韻律情報を効果的に統合した音声認識システムの開発を試みた。二つの異なる情報の統合にあたっては、両者に含まれる類似した情報を相互に検証することによって、音声認識精度の向上を計った。すなわち、音韻認識結果によって得られる候補文節の境界と韻律情報によって得られるアクセント句境界の相関が高い点に着目し、両者の類似性を定量化することを行った。次いで、音韻認識によって得られる複数の候補(N-best)文節に対して、音韻(言語)尤度、韻律尤度および両者の類似度を用いた再評価を行う。これによって、日本語の文法的には正しい候補文節であっても、実際の発声における韻律表現との類似性が低い場合は、総合評価において候補順位が下がることが予想される。ATRの日本語連続音声認識データベース(Bセット503文)を用いた実験を行うに際して、まず、視察によるラベリングを用いた基礎的な分析を行った。その結果、文節境界とアクセント句境界の一致率は約94%であることが判明した。また、発話音声から得られる両境系列の類似性は傾斜制限を施した動的計画法による距離比較(DPマッチング)が有効であることが実験的に確かめられた。次いで、7名の話者を用いた不特定話者の認識実験を行った。その結果、音韻情報のみによる1位文節認識精度が20.2%であったのに対して本手法を適用することによって30.0%に向上した。10位認識精度では、33.5%から40.5%に向上した。以上の結果より提案手法が認識精度の向上に寄与することが確かめられた。また、漸次的な音声認識への応用を考慮し、韻律情報と音韻情報を利用した文節仮説の検証を発話の終了を待たずに漸次的に行う手法を実装し、実験を通じて有効性を確認した。
|