研究概要 |
本年度は,大規模音声コーパスを利用した素片接続型音声合成を用いた低ビット音声符号化方式Coding by Synthesis法(以降CbS法)を提案し,その低ビット化と音質改善法について検討を行った.CbS法は入力音声から音響的特徴量を抽出し、それを用いてパターンマッチングを行った後に音声合成を行う方式で数100bit/sでの音声符号化が可能であるが、入力話者に依存して音質が劣化する問題を有する。本年度は、ガウス混合モデル(以降GMM)を用いた話者適応法をCbS法に実装した。適応方法としてはGMMの多次元正規分布の特徴を用いて入力音声とコーパス音声の特徴パラメータの1つであるメルケプストラムをモデル化してGMMの話者適応アルゴリズムを用いて話者適応を行うものである。実験において、混合数8,学習文章数50により入力話者をコーパス話者に適応するためのGMMを作成した.これを用いて話者適応を行ったCbS法による音声と,従来まで提案したアフィン変換を用いたCbS法による音声を対比較試験にて主観評価を行い、音質向上の有無を確認した。その結果GMM話者適応を用いた合成音声の方がアフィン変換を利用した話者適応を用いた先行研究の方式より音質の向上が確認できた。プリファレンススコアの比率は72%(提案方式):28%(従来方式)であった.また、合成音声の音質をさらに向上させる為に行ったピッチ周波数調整を行う事により音質の向上を確認した。
|