1998 Fiscal Year Annual Research Report
音声認識における韻律利用のための確率的韻律表現に関する研究
Project/Area Number |
10780222
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
中井 満 北陸先端科学技術大学院大学, 情報科学研究科, 助手 (60283149)
|
Keywords | F0信頼場 / F0信頼度 / ピッチパターン / 韻律 / 音声認識 / 韻律句境界検出 / 藤崎モデル |
Research Abstract |
本課題では音声確認を支援する特徴量として、音声の了解性に寄与する韻律(アクセント、イントネーション、リズムなど)に着目し、これらを「何如にパターン認識に用い易い特徴量として表現するか」について検討を行なっている。 この韻律特徴量の一つの表現形態として、本年度はF0信頼場を提案した。これは音声波形の自己相関に基づいた「時間-ピッチ周波数(F0)」のマトリクス状の特徴量であり、各点はピッチらしさの指標(F0信頼度)となる。また、この特徴量の有効性について、以下の実験において実証した。 1. アクセント句境界検出…アクセント句のF0テンプレートと入力FO信頼場との累積F0信頼度最大を基準としたパターン整合により句境界を検出。 2. 藤崎モデルの指令推定…F0パターン生成モデルにおけるアクセント指令、およびフレーズ指令をF0信頼度最大を基準とした山登り法によって推定。 これらの実装により、従来のF0パターン整合を用いたアプリケーションは、提案するF0信頼場を用いても、ほぼ等価なアルゴリズムで制御可能であることを示した。同時に良好な検出・推定結果が得られ、従来のF0パターンに見られるようなF0抽出エラーなどの問題に対処しうる特徴量であることを示した。 さらに、音声認識への応用として、1より得られるアクセント句境界情報が文音声認識候補の確からしさの検証に有効であること、また、パターン整合を行わないアプリケーションでも、騒音環境下における音声区間検出のための一つの情報源としてF0信頼度が有効である、などの研究成果を得た。
|