基本周波数パターンを中心とする韻律的特徴をモーラ単位で表現し、その遷移確率モデルにより韻律に関する事項を表現して検出、識別を行い、その結果を音声認識に利用することを目的とし、以下の様に所期の目標を達成した。 1.離散型HMMであるモーラ遷移確率モデルを連続分布モデルとすることの検討を行った。基本周波数パターンをスプライン補間した後、2次曲線で近似し、その係数をパラメータとすることで数%の境界検出率の向上を得た。 2.休止が後続する場合、モーラ持続時間が閾値より大きい場合について個別にモデル化することにより、アクセント句境界検出率の数%程度の向上を得た。 3.入力された連続音声を、まず音素HMMと文章単位のモーラbi-gramで認識し、得られたモーラ境界情報を利用して、モーラ遷移確率モデルによりアクセント句境界を検出する。次に、検出された境界情報を基に、アクセント句単位のモーラbi-gramを用いて再認識を行うことにより認識率の向上を達成する。この様な2段構成の認識アルゴリズムを構築して、ATR連続音声データベースを用いた認識実験で数%のモーラ認識率の向上を確認した。 4.上記の前段認識とアクセント句境界検出において、2ベストを取って認識を進め、最終的なスコアによって確定することを行い、1ポイント程度のモーラ認識率の向上を達成した。さらに、後段の2ndベストを時間情報を考慮して利用することで認識率がさらに向上する可能性を示した。 5.発話内容既知の場合について、開発した手法による韻律の自動ラベリングを行い、7割程度の精度でのラベリングが可能なことを示した。 6.モーラ遷移確率モデルを結合することにより、アクセント型、フレーズ境界位置を入力としてアクセント句の基本周波数パターンを生成することを行った。モーラ境界での不連続を平滑化するこれにより、音声合成に利用可能なことを示した。
|