本研究は、従来の音韻認識主導型の音声認識手法に代えて、発話音声中に含まれる超文節的特徴である韻律特徴を音韻特徴と同格に扱う新たな音声認識手法の開発を目指した。研究の第1目的として、ピッチパターンの数理モデルを利用することの利点と、大量の音声データからデータ駆動的に特徴を抽出することの利点を共有する高精度な韻律句境界の検出法を開発し、実音声における有効性を示すことを挙げた。また、得られた句境界仮説、句境界の型、およびポーズ情報を基に言語処理における構文仮説の検証による計算量の削減および文認識率の改善を行う手法の開発と評価を研究の第2目的とした。3年にわたる研究によって以下のような成果が得られた。 1. 基本周波数パターンの高精度抽出:韻律生成モデルとして2次の臨界制動モデル採用し、この逆フィルタを用いたピッチパターンの平滑化法を開発した。また、従来の決定的な基本周波数の決定手法に対して、各周波数に対する基本周波数の存在の確からしさを連続量で表わす"Fo信頼場法"を新たに開発した。 2. 韻律情報を用いた音声認識: (1) 韻律生成モデルによって単語のアクセントピッチパターンを推定し、この結果を用いることによって雑音環境下における単語音声の認識精度が向上することを示した。 (2) 連続発声した文章中のアクセント句間の係り受け関係の有無を基本周波数パタンを特徴量とした最適線形識別関数によって推定する方式を開発した。 (3) 音韻認識結果によって得られる候補文節の境界と韻律情報によって得られるアクセント句境界の相関が高い点に着目し、両者の類似性を利用した音声認識手法、およびその漸次的な処理手法の開発を行った。
|