研究概要 |
隠れマルコフモデル(HMM)に基づいて,与えられた任意のテキストから,自然性が高くしかも多様な声質による音声出力が可能な音声合成システムを実現することを目的として研究を行った。 本研究課題の最終年度となる今年度は,これまでの成果として得られたプロトタイプHMM音声合成システムに検討・改良を加え,多様な声質や話者性で音声合成が可能なシステムを実現した。 1.パラメータ生成法の検討:HMMからのパラメータ生成法として,状態系列あるいはその一部を非可観測としたまま尤度を最大にするアルゴリズムを提案し,音声合成システムに実装してその評価を行った。 2.多様な声質による音声合成:MAP/VFS及びMLLRに基づく音声合成単位HMMの話者適応手法を確立し,合成音評価実験を通して,不特定話者モデルから任意の話者の声質に変換可能であることを示した。 3.テキスト解析部の実現:品詞に基づいたNクラスモデルを利用した統計的形態素解析器とEDR辞書及び規則に基づくアクセント付与システムを構築し,HMM音声合成システムに組込んで評価を行った結果,ATR音韻バランス文に対し人手修正の場合とほぼ同程度の性能が得られることを示した。 4.合成音の品質向上:合成フィルタの駆動音源として,従来のインパルス列/白色雑音音源に代わる混合音源を検討し,より自然性の高い合成音声が得られることを確認した。さらに,合成音声の品質に影響を与える音韻・韻律に影響を与える変動要因の検討を行った。 5.音声合成システムの実現:上記の成果を取り入れた音声合成システムをワークステーション上に実現した。 今後の課題としては,本研究で実現した音声合成システムをより発展させて,感情,発話スタイルを含むより高度の多様性を実現する音声合成システムの実現があげられる。
|