研究概要 |
講演音声において,通常とは異なる調子で発声している箇所を検出するために,声の高さを表す基本周波数(FO)の変化を利用することを考える。発話内容が既知である状況において,通常の発声におけるFOパターンを音声合成の手法を用いて予測し,実際に発声された音声のFOパターンとを比較することによって,差の大きい区間を検出する。本年度の研究では,FOパターンの予測精度を向上させるため,多数の音声データに基づいた統計的FOモデルの構築を行った。 多数の文節基本周波数パターンからクラスタリングによって代表的な文節FOパターンを選択し,各クラスタにおける言語素性の頻度分布に基づいて観測FOパターンの生成確率を算出するモデル化を行った。学習データとして,日本語話し言葉コーパス(CSJ)における180講演の音声データから約15万文節を使用した。FOモデルの評価を行うため,発話内容が既知である音声に対するアクセント型推定の評価実験を行った。評価データとして,学習データとは異なる音韻バランス文503文を用い,クラスタ数を2から1024まで変化させ精度の変化を調べた。評価データに対するアクセント型は視察によりあらかじめ決定されている。FOモデルを利用したアクセント型の推定では,距離により単一クラスタを選択する手法,折れ線近似のパラメータ表現を用いた確率による単一クラスタ選択,藤崎モデルのパラメータ表現を用いた確率による単一クラスタ選択,折れ線近似のパラメータ表現を用いた確率による複数クラスタ利用,藤崎モデルのパラメータ表現を用いた確率による複数クラスタ利用の5つの手法を比較した。評価実験により構築した統計的FOモデル言の妥当性を検証した。
|