2004 Fiscal Year Annual Research Report
任意の話者性・感情表現・発話様式によるテキスト音声合成の実現
Project/Area Number |
04J04633
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
山岸 順一 東京工業大学, 大学院・総合理工学研究科, 特別研究員(DC1)
|
Keywords | 音声合成 / 隠れマルコフモデル / 統計的音声合成 / 感情表現を伴う音声合成 / 多様な発話様式による音声合成 / ヒューマンインターフェース / 音声信号処理 / 統計的音声処理 |
Research Abstract |
与えられた任意のテキストに対応する音声を生成する技術はテキスト音声合成と呼ばれ,自然性の高い合成音声が現在生成可能となりつつある.しかし合成音声の話者の声質や感情表現は非常に限定されたものであり.多様さに欠けたものが多い.この問題に対し,本研究では,合成音声の声質や合成音声の感情表現や発話様式を自由に変更することが可能な、「モデル適応手法を用いた音声合成方式〜平均声に基づく音声合成方式〜」という新たな枠組みによる音声合成方式を実現することを目標に数学的な理論およびその理論に基づく実システムの構築について検討している.本年度は主に多様な感情表現や発話様式を伴う音声を合成することを実現するための研究、および、新たな合成音声の感情表現や発話様式をごく少量のサンプルデータをもとに通常の発話スタイルの音声から変換することで容易に実現するための研究、およびその変換に用いられるモデル適応手法の数学的な問題点について解決し、本システムにより適したモデル適応アルゴリズムを実現することで合成音声の品質をさらに向上させることについて重点的に研究を行った。具体的には、隠れマルコフモデル(HMM)を用いて音声の声質・韻律の特徴量を音声データからモデル化することでHMMの学習に用いた音声の感情表現と発話様式とほぼ同様なスタイルを擁する合成音声を生成可能であることを示した。また最尤線形回帰というモデル適応アルゴリズムを用いることで数分程度のごく少量の目標スタイルのサンプル音声をもとに通常の読み上げスタイルの合成音声を目標のスタイルに変換可能であることも示した。これにより新たな感情表現や発話様式を非常に容易に実現することが可能になると考えられる。また従来の最尤線形回帰アルゴリズムは合成音声のテンポやリズムに相当する音韻継続長を変換することが理論的に不可能であったが、隠れセミマルコフモデル(HSMM)に基づいて最尤線形回帰アルゴリズムを導出することで、合成音声の声質や声の高さのみならずテンポやリズムも変換可能なモデル適応アルゴリズムを実現し、その有効性を示した。
|
Research Products
(11 results)