研究実績の概要 |
個性豊かな音声合成を実現するために,音声における声質や韻律に関して,個人性の分析や自動評価に関して研究を行った。 音声の声質は主にスペクトルによって表現される。スペクトルの違いに焦点をあて,声質の類似性を自動予測する手法を提案した。音声の特徴量としてMFCCパラメータを用い,その重み付きユークリッド距離で声質類似度を予測する。文音声を対象とした予測では,予測結果と聴取実験結果との相関値が0.49 とやや低い値となった一方で,声の高さなどの韻律の影響を取り除いた短母音を対象としては,/a/, /i/ に対してそれぞれ0.81, 0.78 の高い相関値を得た。 音声の個人性の違いは韻律によっても表現される。そこで,音声の音韻性の変化を取り除き韻律情報を保存した合成音声を用いた聴取実験を行い,個人性の知覚と韻律情報の関係を分析した。合成音声の聴取によって韻律情報から個人を同定することは困難であったが,よく知っている身近な話者については同定できており,アナウンサーと一般話者の違いも知覚できることがわかった。 また,合成音声の音質を改善する手法として,HMM(隠れマルコフモデル)を用いたパラメータ音声合成手法において,パラメータの時間変化が過度に平滑化され音声が劣化する問題を解決するために,パラメータの時間変化が自然音声における変化と近づくようにモデル化を行う新しいパラメータ生成手法を提案した。 さらに,最終年度においては,音声の明瞭性を自動予測する手法を提案し評価した。音声スペクトルにおけるダイナミックレンジを用いて明瞭性を予測する。アナウンサー,セミプロ話者,一般話者の3種類に音声を分類し,この順に明瞭性が高いとの予測結果を得た。スペクトルダイナミックレンジを算出する音声区間や周波数帯域について検討を行い,それらを変更しても大きな差がないことを確認した。
|