人間のコミュニケーションにおいて、音声を用いることが最も身近なことである。一方、中国の開放によって、より多くの人が中国語に触れる機会が多くなってくる。中国語の高品質な音声合成システムを求める声が高い。しかし、現在そのようなシステムは研究段階であり、本研究はそのニーズを答えて検討するものである。 本研究はデータベースの小型化、音質の改善、音韻連鎖の音韻学などの面からの解明について検討している。 今年度において、以下のことについて研究した。 まず、音韻連鎖の検討として、音韻連鎖データベースを構築する。音声合成時の接続歪みを軽減する目的もあるので、接続歪が少ない破裂音などのサンプルは少なく、大きい有声音(母音・半母音間など)については多めにパタンを用意した。録音はまず標準中国語男性話者一人について行った。このデータベースの音韻セグメンテーションを行った。 次に、各音韻連鎖について、前の音韻から後の音韻に遷移するパタンを実際のデータの分析結果から推測し、連鎖モデルを構築した。たとえば、母音から母音の遷移について、第1から第3ホルマントをパラメータとして、3次曲線で近似したところ、直線の近似よりも、ホルマント合成の自然性が0.39をあげることができた(自然性評価は5段評価)。また、先行研究で得た接続歪に関する結果もデータ数を増やして確認している。 更に現在、高品質音声分析・変換・合成システムSTRAIGHTを利用してノンパラメートリクな合成方法についての精度を検討している。この音声モーフィングアルゴリズムで接続された音声(音韻連鎖音声)の品質を客観的(今回はスペクトル歪CDと時間伸縮度合を用いた)、主観的(自然性の聴覚実験)評価を行っている。 来年度はまずデータ数を拡張するため話者を増やす。次に用いた連鎖モデルの精度を上げ、更にフレーズなど少し長い単位での韻律パタンを制御するアルゴリズムを提案する。最後には文レベルまで音声合成の品質を改善する。
|