前年度までの研究により、スペクトル包絡の形状変化量からおおよその局所的話速変化を算出可能となったが、母音の連続などの箇所においてまだ充分な精度が得られないため、本年度は引き続き職業アナウンサによる部分強調朗読音声から局所的話速変化を抽出するための基礎的方法について検討した。 スペクトル包絡に基礎をおいた変化量パラメータでは、知覚に関与の少ない高周波部分の微細構造の変化なども、低次のフォルマントのような知覚上重要な変化と同様に扱われてしまうことを考慮し、音声認識などでも効果の認められているフォルマント周波数に注目し、その変化量に基礎をおいた話速検出手法を試みた。フォルマントに基礎を置く手法は、有声音部のみにしか用いることができないが、日本語は原則として「子音-母音」の構造を基礎としており、英語などのような「子音-子音」の連鎖は少ないことから、本年度の研究では連続する無声子音区間については一つの音素とみなし、連続する有声区間についてフォルマントの変化量から音素変化を検出することとした。また、前年度までの研究でも問題となった、音素の変化点でパラメータが大きく変化する場合と微妙にしか変化しない場合が存在するために閾値の設定が困難になる問題は、おおざっぱな処理で大きな変化点を検出してより小さな区間に分割し、続けて精密な閾値操作を施して微妙な変化点を検出することで対処した。本研究では比較的容易に信頼度の高いフォルマント周波数軌跡が得られた第一フォルマントのみを用いて、話速変化検出につながる音素変化点検出を試みた。一つの無声子音区間に複数の音素が含まれる無声化母音区間、および表記上は二重母音でも発音は単一長母音になるような箇所は除いて評価したところ、16文のサンプルで88.0%の正解率が得られた。
|