本課題では音声認識を支援する特徴量として、音声の了解性に寄与する韻律(アクセント、イントネーション、リズムなど)に着目し、これらを「何如にパターン認識に用い易い特徴量として表現するか」および「どのように音声認識で利用するか」について検討を行なった。 まず、韻律特徴量の一つの表現形態として、F0信頼場を提案した。これは音声波形の自己相関に基づいた「時間-ピッチ周波数(F0)」のマトリクス状の特徴量であり、ピッチらしさ(F0信頼度)に基づいた表現である。この特徴量の有効性について、アクセント句境界検出(アクセント句のF0テンプレートと入力F0信頼場との累積F0信頼度最大を基準としたパターン整合により句境界を検出)、藤崎モデルの指令推定(F0パターン生成モデルにおけるアクセント指令、およびフレーズ指令をF0信頼度最大を基準とした山登り法によって推定)の2つの実験より、従来のF0特徴量を用いた場合と、ほぼ等価なアルゴリズムで実装が可能であることを示し、また、より精度の良い検出・推定結果が得られ、従来のF0パターンで煩わされたF0抽出エラーなどの問題に対処しうる特徴量であることを示した。 次に、音声認識における韻律の利用法として、前述の韻律句境界検出法によって得られるアクセント句境界情報を用い、音響尤度の韻律尤度の混合尺度を基準とした文音声認識システムを実装した。このシステムでは音響的に類似している複数の文候補のスコアに、韻律句構造的な確からしさを指標としたスコアを加算し、最もスコアの高い文を出力する。評価にあたっては、句読点の位置によって複数の文意に解釈できる音響尤度の等しい曖昧文20例程度に対し、ユーザの発声した意味通りの文認識を可能とした。 また、音声対話における韻律の利用法として、F0値やパワーを特徴量とした感情の変化を模擬するHMM(Hidden Marcov Model)を定義し、その実装および対話音声の収集を行なった。このシステムは、プロトタイプが組み上がったばかりの状況であり、今後、擬人化エージェントの研究として改良を重ねていく予定である。
|