われわれの目指す柔軟な声質制御とは、ささやき、気息性、緊張性などのいわゆる狭義の声質と話者の音声器官の生理学的違いに起因する個人性を多様に制御することであり、本研究課題の目的はそのための音声合成方式の基礎を確立することである。本年度は昨年度に開発した時変ARX(Autoregressivewith exogeneous input)音声分析法を用いて、国際音声学会議が制定した「ささやき(whisper)、気息性(breathy)、ざらざら声(harsh)」に、緊張性(tense)を加えた声質の制御法について詳細に検討した。 ささやきについては、昨年度考案した制御法の根拠になる音響理論について詳細に検討し、MR画像や電子内視鏡による発声中の喉頭の挙動に関する計測と音響シミュレーションを行って、従来の定説とは異なる新しい機構を見出した。気息性については、喉頭雑音の強度並びに声門音源波形のパラメータ制御法について検討した。ざらざら声については、基本周期ゆらぎ、振幅ゆらぎ、スペクトルゆらぎ、ならびに喉頭雑音を含む精密な音声信号モデルにもとづいた音声分析・変換・合成システムを作成し、ざらざら声を多様に制御する方式について検討した。その結果、こららのパラメータと声質に関する聴覚的印象とは互いに密接に関係していること、提案したゆらぎモデルがかなりの程度で多様なざらざら声の声質を表現できることを明らかにした。緊張性については、声門音源波形のうちの声門開放率とスペクトル傾斜を制御することで実現できることを明らかにした。 個人性については、第1から第5フォルマントの性的特徴が最も重要であり、次に音源特徴、最後にフォルマントの動的特徴であることを大規模な聴覚実験によって明らかにした。 本研究による成果は、声質制御の可能な音声合成方式の基礎として大きな貢献をするものと確信する。
|