本研究では、発話内容や状況に合った、人間らしい話し方ができる音声対話システムを実現するため、(1)自発的な対話音声を収集し、音声対話において重要なパラ言語情報を付与した大規模なコーパスを構築すること、および(2)収集した音声に対してイントネーション・持続時間長・フォルマントなどの音響分析を行い、それらの音響的特徴と言語情報・パラ言語情報・談話情報との関係をモデル化すること、を目的とする。 本年度は、上記(1)として音声対話コーパスの構築作業を昨年度に引き続き行い、その成果を「宇都宮大学パラ言語情報研究向け音声対話データベース」として公開した。このデータベースは国立情報学研究所音声資源コンソーシアムを通じて音声・言語研究者に広く配布されている。 また、上記(2)として、基本周波数や強度などの韻律パラメータ、喉頭音源由来の声質に関わる音響パラメータ、ならびにフォルマント周波数と、知覚されるパラ言語情報との関係を分析した。韻律パラメータについては重回帰分析によりほとんどの話者において精度良くモデル化が行えた。一方、声の気息性やフォルマント周波数に関わる音響パラメータについてはパラ言語情報との関連が話者に強く依存することが明らかになった。また、単純な線形回帰モデルによっても声の気息性が不快の程度を反映することが示唆されていたが、同じ語でもその支配-服従の程度によりカテゴリを細分化することにより、服従的な発話では気息性の程度と不快の程度の相関がより顕著になることがわかり、非線形なモデル化の有効性が明らかとなった。さらに、快と知覚される音声では実効声道長の変化によりフォルマント周波数が上昇する傾向を持つ話者が存在することが初めて示された。
|