1997 Fiscal Year Annual Research Report
モデルと事例に基づく韻律特徴の抽出と音韻認識との有機的結合
Project/Area Number |
08680391
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
下平 博 北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (30206239)
|
Co-Investigator(Kenkyū-buntansha) |
中井 満 北陸先端科学技術大学院大学, 情報科学研究科, 助手 (60283149)
|
Keywords | 韻律情報 / 句境界推定 / 藤崎モデル / ピッチパターン / 音声認識 |
Research Abstract |
2年目にあたる本年度は初年度の研究に加え、検出された韻律境界の情報と音韻認識に基づく統語解析パ-ザとの融合の研究を行い、韻律情報を音声認識に利用するための研究を行った。 連続音声の認識に先立ち、雑音環境下の単語音声の認識に韻律情報を利用する研究を行った。白色雑音のような定常雑音に対して基本周波数の抽出は影響を受け難いため、頑健な音声認識の一手法として利用できる可能性がある。ATRの最重要単語520単語データベースにおいて、音韻HMMならびに基本周波数パタンの学習に男性話者15名を用い、評価実験用に別の男性話者5名のデータを用いて認識実験を行った。その結果、音韻尤度と基本周波数パタンによる韻律尤度の重みが最適化された場合、誤認識数を音韻HMMのみによる場合の50%に削減できることが分った。しかし、重みを自動的に決定した場合の誤りの改善率は7%程度にとどまり、重みの決定法についてさらなる検討が必要であることが分った。 次に、連続音声において韻律情報を利用するために、まず、発声文章中のアクセント句間の係受けの有無を基本周波数パタンによって推定することを試みた。ATRの連続音声認識データベース(503文)を用いた実験の結果、係り受けの推定精度は、正規分布を仮定してベイス識別で82.0%、Bennettによって近年提案された線形識別法RLPPで87.0%となり、従来より高い推定精度が得られた。ついで、HMMによる音韻認識と句構造推定の結果に、韻律情報による係り受けの信頼度を考慮した形態素間のbigramを統合する手法を新たに考案した。予備的な実験の結果、HMM音韻認識に基づくNーbest候補中に正解が含まれている場合は、誤確認の約半数を本手法によって正解とすることができることが確かめられた。
|
-
[Publications] Mitsuru Nakai: "On Representation of Fundamental Frequency of Speech for Prosody Analysis Using Reliability Function" Proc.Euro Speech ‘97. 243-246 (1997)
-
[Publications] Hiroshi Shimodaira: "Restoration of Pitch Pattern of Speech Based on a Pitch Generation Model" Proc.Euro Speech ‘97. 521-547 (1997)
-
[Publications] 中井満: "Fo生成モデルを用いたテンプレートに基づく連続音声の句境界検出" 電子情報通信学会論文誌DーII. J80-D-IINo.10. 2605-2614 (1997)
-
[Publications] 中井満: "Fo信頼場を用いたFo制御機構の指令推定" 日本音響学会平成10年度春季研究発表会. (1998)
-
[Publications] 川崎真護: "Fo生成モデルに基づくピッチパターン整合を用いた雑音重畳単語音声の認識" 日本音響学会平成10年度春季研究発表会. (1998)