本年度は、韻律特徴の抽出精度を向上させることを研究の第一目標とした。とくに、韻律生成モデルとして2次の臨界制動モデルを用いた場合の制御入力信号の推定問題(逆問題)に重点を置いた。 従来は、人間が与えた初期値をもとにして合成による分析(AbS)を用いて探索空間を全探索する手法が用いられていたのに対して、以下のような新しい手法を開発した。まず、ピッチパターンを構成するフレーズ成分とアクセント成分に対応する指令系列を検出するフィルタを作成する。実音声のピッチパターンに対して、指令検出フィルタは真の指令以外にも様々な雑音を出力するので、フィルタ出力の中から与えられた評価関数を最小化する指令の組み合わせ(指令系列)を求め、これをもって推定指令系列とする。音声認識システムへの利用を考えると、音声の入力に同期して漸進的に指令系列が求まることが要求されるので、探索法としてOne-Pass DP型のビーム探索を用いた。フィルタとしては、モデルの逆フィルタを近似的に構成してこれを用いる方法(方法1)、および、各分析フレーム毎にフレーズおよびアクセント指令の発生を仮定して、指令のパラメータ(振幅等)を算出する手法(方法2)を考案した。 ATRの連続音声データベース(503文、話者1名)を用いた実験から、人手によって与えられた指令系列から生成した理想的なピッチパターンとの歪評価では、方法2の方が方法1より良好な効果が得られることが分かった。また、本手法によって再構成されたピッチパターンは良好なピッチパターン概形を与えることが確認された。しかし、推定された指令系列自体は人手によるそれとかなりの違いがあることが判明した。 上記研究の他、ピッチ周波数(F_o)検出において、F_oの一意決定を避け、代わりに周波数毎のピッチ存在信頼度関数を与える手法を考案した。これによって、韻律句境界の検出制度が向上することを確認した。
|