研究概要 |
本研究では,「平均声からの音声合成」という新たな枠組みを提案し,多様な話者の声質や発話様式を自動的に生成可能なマルチモーダルヒューマンコンピュータインタラクションを実現するための基礎を開拓することを目的として以下の項目について検討を行った。 1.音声の話者性を決定する要因にはスペクトル情報と韻律情報がある。そこで,複数話者の音声データから得られたスペクトル情報と韻律情報を隠れマルコフモデル(HMM)を用いて同時にモデル化することにより複数の話者の平均的な特徴を表す平均声モデルを学習し,このモデルに基づいて平均声を合成するシステムを提案した。平均声合成に関する種々の検討を行い、品質の良い平均声を生成するために必要なデータ量の指針を示すとともに,一話者あたりのデータ量が少ない場合でも品質の良い平均声を合成可能にする効率的な平均声モデル構築手法を提案した。さらに,話者適応訓練(SAT)法を導入した平均声モデル学習法を提案し,その有効性についても検討を行った。 2.任意の話者が発声した数文章程度の少量の音声データを用いて平均声モデルの話者適応を行い,得られたモデルに基づいて音声合成することにより,任意の話者の声質や韻律特徴を持った音声を生成する手法を提案した。ここでは,スペクトル情報と韻律情報を最尤線形回帰(MLLR)法に基づいて統一的にモデル適応を行うアルゴリズムを導出し,合成音声の客観評価および主観評価試験により,提案手法の有効性を示した。その結果.数文章程度の適応データがあれば,特定話者モデルに近い合成音声が生成可能であることを示した。 3.平均声からの音声合成システムのプラットホームであるHMM音声合成に用いられるコンテキストクラスタリングに関して,合成音の自然性に影響を与える変動要因の検討を行った。
|