1998 年度実績報告書

隠れマルコフモデルに基づくテキスト音声合成システムの実現

研究課題

研究課題/領域番号	10555125
研究種目	基盤研究(B)
研究機関	東京工業大学
研究代表者	小林隆夫東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)
研究分担者	益子貴史東京工業大学, 大学院・総合理工学研究科, 助手 (90272715) 徳田恵一名古屋工業大学, 知能情報システム学科, 助教授 (20217483)
キーワード	音声合成システム / 隠れマルコフモデル / ピッチ / 音質変換
研究概要	近年,人工現実感に関する研究が盛んに行われているが,より現実に近い仮想空間を構築したり,コンピュータエージェントとの自然な対話を実現するためには,多様な表現が可能な音声合成システムが必要となる.そこで本研究では,音声の統計モデルとして音声認識の分野で広く用いられている隠れマルコフモデルに基づき,任意のテキストから,多様な声質や感情を含む様々な発話形式を表現することのできる音声合成システムを実現することを目的としている. 音声を合成するためには音韻情報と,音の高さ(ピッチ),強さ(パワー),音韻継続長からなる韻律情報が必要である.我々は既に隠れマルコフモデルから音韻情報を生成する方法を提案しているが,韻律のモデル化および生成手法や,韻律に影響を与える様々な要因については,検討が不十分であった.そこで,隠れマルコフモデルに基づくピッチのモデル化,生成手法について,アクセント型や文の係り受け構造など,ピッチに影響を与える要因の検討,さらにそれらの要因を学習データを用いて自動的に統計的にクラスタリングする手法の検討を行った.この手法により得られたモデルを用いることにより,自然性の高いピッチを生成できることが確認された.さらに,多様な声質で音声合成するために,音声認識の分野で研究されている話者適応手法の適用について検討を行った.話者適応手法を用いてモデルのパラメータを変換することにより合成音声の声質を変換できること,2つの異なる話者適応方式でほぼ同等の性能が得られることが確認された.