本研究は、アクセントやイントネーションに代表される韻律情報を音韻情報と同格に扱い、両者を有機的に結合することによって、連続音声中の単語や文節の認識精度を向上させる手法の開発を研究目的とした開始された。韻律句を自動抽出する手法として、モデルを仮定せずに実際に大量の音声資料から得らる統計的な特徴を利用したボトモアップ的な手法を取り入れた点に本手法の特徴がある。 実験はATR製の連続音声データベ-(セットB、話者10名)を用いて行われた。研究の成果は以下の通りである。 1.ラグ窓法に周波数帯域分割法を施すことによって、ピッチ抽出精度が向上することが分かった。 2.学習データのアクセントパターンのクラスタリングを行い、得られたアクセントテンプレートと、未知入力としての連続音声のピッチパターンとをOne Stage DP法によって連続整合することによって、アクセント句の自動抽出を試みた。実験によって以下の結果を得た。 (1)視察境界の約83%を自動検出することができた。 (2)ピッチテンプレートのテキスト依存性は低く、テキストに依存しない一般的なピッチパターンの特徴がとらえられていることが分かった。これに対し、話者依存性はかなり大きいことが分かった。 得られた韻律句の情報と音韻認識を統合する作業は現在進行中である。予備的な実験によると、韻律境界に誤りが多く含まれているため単一の候補では情報量として不足であることが判明した。そこで、複数の候補を選出し、その結果を利用することを検討中である。
|