研究概要 |
近年,人工現実感に関する研究が盛んに行われているが,より現実に近い仮想空間を構築したり,コンピュータエージェントとの自然な対話を実現するためには,多様な表現が可能な音声合成システムが必要となる.そこで本研究では,音声の統計モデルとして音声認識の分野で広く用いられている隠れマルコフモデルに基づき,任意のテキストから,多様な声質や感情を含む様々な発話形式を表現することのできる音声合成システムを実現することを目的としている. 音声を合成するためには音韻情報と,音の高さ(ピッチ),強さ(パワー),音韻継続長からなる韻律情報が必要である.我々は既に隠れマルコフモデルから音韻情報を生成する方法を提案しているが,韻律のモデル化および生成手法や,韻律に影響を与える様々な要因については,検討が不十分であった.そこで,隠れマルコフモデルに基づくピッチのモデル化,生成手法について,アクセント型や文の係り受け構造など,ピッチに影響を与える要因の検討,さらにそれらの要因を学習データを用いて自動的に統計的にクラスタリングする手法の検討を行った.この手法により得られたモデルを用いることにより,自然性の高いピッチを生成できることが確認された.さらに,多様な声質で音声合成するために,音声認識の分野で研究されている話者適応手法の適用について検討を行った.話者適応手法を用いてモデルのパラメータを変換することにより合成音声の声質を変換できること,2つの異なる話者適応方式でほぼ同等の性能が得られることが確認された.
|