等時性を持つといわれる日本語においても、会話等の自然な音声には局所的話速の変化が少ないながら存在し、そのような話速変化が内容強調や感情表現に重要な役割を果たしていることに注目した。音声を用いるマン・マシンインタフェース話速変化が存在した場合には検出できる機構が必要であることを主張した。 話速変化のパラメータとして、音色に相当する音声スペクトルの時間変化に着目し、まず、もっとも一般的なケプストラム距離を用いて時間的に近隣のスペクトルとの距離を計算し、単語相当の短区間で平均し速度に相当するパラメータとすることを試みた。おおむね良好に音素変化点で距離ピークが見られたが、母音の連続等なめらかに変化する位置でピークが出づらく、またピークも比較的幅の広い鈍いピークが散見された。そのため速度検出に用いる距離の短区間平均も局所的モ-ラ速度との合致性がいくぶん不安定であった。そこで近年提案された新しい適応自己組織化クラスタリング手法を応用し、音声スペクトルを音素数程度のクラスタに分類し、クラスタ群から出力される類似度ベクトルの変化をケプストラム距離にかわるスペクトル変化量とすることを試みた。ピークの幅は小さく鋭くなり、また母音間等の変化検出問題も幾分改善されたが、さらなる検討が必要である。現在距離値の単語相当区間での平均にかわる速度検出量として、距離の時間変化の周波数成分に注目した手法を検討中である。 実験は研究室のメンバーの発声による音声データを主に用いた。音響学会研究発表会において、音声データは職業アナウンサや俳優等の、訓練を受けた話者に依頼すべきという指摘を受け、本補助金の一部を用いて職業アナウンサに録音を依頼し、現在はこのデータでの分析も平行して行っている。
|