研究概要 |
隠れマルコフモデル(HMM)は,音声スペクトル系列の優れた統計的モデル化手法として,音声認識などの分野でその有効性が示されている.近年,我々は音声のスペクトル情報を学習した隠れマルコフモデルから音声スペクトルパラメータ系列を生成する手法を提案し,隠れマルコフモデルが音声合成においても有効であることを示した.音声を合成するためには,音韻(スペクトル)情報だけではなく,韻律情報(音の高さや強さ,継続時間)も生成する必要がある.本研究では,隠れマルコフモデルに基づいた音声合成手法を確立し,様々な話者の声質を模倣したり,感情表現された音声を合成することを目的とし,その基礎となる韻律のモデル化,および音声認識の分野で研究されている話者適応技術によるモデルパラメータの変換について検討している. まず,合成音声の声質変換について検討した.スペクトル情報を学習したHMMに対して話者適応技術を適用し,目標となる話者により発声された学習データを用いてHMMを適応することにより,合成された音声の声質が変化すること,また小量の学習データで十分に目標話者の声質に近づけることができることを明らかにした.次に,韻律情報のうち,ピッチ情報のモデル化手法について検討した.ピッチ情報は,有声区間では連続値をとるが,無声区間では値を持たないため,通常のHMMではモデル化することができない.そこで,連続値と離散値を取り扱うことのできる離散連続混成HMMを提案し,その定式化を行った.また,この混成HMMがピッチ情報のモデル化に有効であること,さらに混成HMMから生成したピッチ情報を用いた合成音声は高い自然性を持つことを明らかにした.今後は韻律情報のうち,パワーと音韻継続長のモデル化および適応手法について検討する必要がある.
|