1996 Fiscal Year Annual Research Report
モデルと事例に基づく韻律特徴の抽出と音韻認識との有機的結合
Project/Area Number |
08680391
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
下平 博 北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (30206239)
|
Co-Investigator(Kenkyū-buntansha) |
中井 満 北陸先端科学技術大学院大学, 情報科学研究科, 助手 (60283149)
|
Keywords | 韻律情報 / 句境界推定 / 藤崎モデル / ピッチパターン |
Research Abstract |
本年度は、韻律特徴の抽出精度を向上させることを研究の第一目標とした。とくに、韻律生成モデルとして2次の臨界制動モデルを用いた場合の制御入力信号の推定問題(逆問題)に重点を置いた。 従来は、人間が与えた初期値をもとにして合成による分析(AbS)を用いて探索空間を全探索する手法が用いられていたのに対して、以下のような新しい手法を開発した。まず、ピッチパターンを構成するフレーズ成分とアクセント成分に対応する指令系列を検出するフィルタを作成する。実音声のピッチパターンに対して、指令検出フィルタは真の指令以外にも様々な雑音を出力するので、フィルタ出力の中から与えられた評価関数を最小化する指令の組み合わせ(指令系列)を求め、これをもって推定指令系列とする。音声認識システムへの利用を考えると、音声の入力に同期して漸進的に指令系列が求まることが要求されるので、探索法としてOne-Pass DP型のビーム探索を用いた。フィルタとしては、モデルの逆フィルタを近似的に構成してこれを用いる方法(方法1)、および、各分析フレーム毎にフレーズおよびアクセント指令の発生を仮定して、指令のパラメータ(振幅等)を算出する手法(方法2)を考案した。 ATRの連続音声データベース(503文、話者1名)を用いた実験から、人手によって与えられた指令系列から生成した理想的なピッチパターンとの歪評価では、方法2の方が方法1より良好な効果が得られることが分かった。また、本手法によって再構成されたピッチパターンは良好なピッチパターン概形を与えることが確認された。しかし、推定された指令系列自体は人手によるそれとかなりの違いがあることが判明した。 上記研究の他、ピッチ周波数(F_o)検出において、F_oの一意決定を避け、代わりに周波数毎のピッチ存在信頼度関数を与える手法を考案した。これによって、韻律句境界の検出制度が向上することを確認した。
|
-
[Publications] Paul Taylor: "Using Prosodic Information to Improve Recognition Accuracy for Spoken Dialogue" Proc.of International Conference on Spoken Language Processing 96. 1. 216-219 (1996)
-
[Publications] 隈田章寛: "Fφ生成過程モデルの指令探索によるピッチパターンの再構成法" 日本音響学会春季研究発表会講演論文集. (1997)
-
[Publications] 中井満: "Fo決定を要しないFoパターン整合を用いたアクセント句境界の自動推定" 日本音響学会春季研究発表会講演論文集. (1997)
-
[Publications] 高倉健次: "Foテンプレートbigramを用いた韻律句の係り受け構造推定に関する検討" 日本音響学会春季研究発表会講演論文集. (1997)
-
[Publications] Yoshinori Sagisaka: "Computing Prosody" Springer, 401 (1997)