人間のコミュニケーションにおいて、音声を用いることが最も身近なことである。一方、中国の開放によって、より多くの人が中国語に触れる機会が多くなってくる。中国語の高品質な音声合成システムを求める声が高い。 しかし、現在そのようなシステムは研究段階であり、本研究はそのニーズを答えて検討するものである。本研究はデータベースの小型化、音質の改善、音韻連鎖の音韻学などの面からの解明について検討している。 本研究は以下のことについて検討を行った。 まず、音韻連鎖の検討として、音韻連鎖データを構築することにした。音声合成時の接続歪みを軽減する目的もあるので、従来の研究で分かった接続歪が少ない破裂音などのサンプルは少なく、大きい有声音(母音・半母音間など)については多めにパタンを用意した。録音はまず標準中国語男性話者一人について行った。このデータの音韻セグメンテーションを行った。 次に、各音韻連鎖について、前の音韻から後の音韻に遷移するパタンを実際のデータの分析結果から推測し、連鎖モデルを構築した。たとえば、母音から母音の遷移について、第1から第4ホルマントをパラメータとして、多項式曲線で近似したところ、直線の近似よりも、ホルマント合成の自然性をあげることができた。また、特に音韻連鎖時の接続歪を軽減するために、接続区間を従来の極わずかな部分に対して、定常区間から遷移が始めたところを接続の範囲とし、スペクトルやピッチの著しい変化を抑えた。 従来の研究では、ホルマント合成器で音源モデルを用いる研究が多かったが、本研究ではできるだけ元の音源を用いることを試み、音質の改善に貢献している。 今後は、ホルマント合成器で得た音声と、高品質音声分析・変換・合成システムSTRAIGHTを利用してノンパラメートリクな合成方法で得た音声との比較検討を行う予定である。また、ホルマント合成器で女性の声については難しいといわれているが、これからデータ数を拡張するためにも話者を増やして、その検討を行うつもりである。最後にフレーズや文など長い単位での韻律パタンを制御するアルゴリズムを改良し、音声合成の品質を更に改善する。
|