研究概要 |
本研究では,「平均声からの音声合成」という新たな枠組みを提案し,多様な話者の声質や発話様式を自動的に生成可能なマルチモーダルヒューマンコンピュータインタラクションを実現するための基礎を開拓することを目的として,研究初年度に引き続き以下の項目について検討を行った。 1.複数の話者の平均的な声の特徴を表す音声単位である平均声モデルの学習法として,初年度に提案した共有決定木コンテキストクラリング(STC)および話者適応学習(SAT)の二つの方法を統合し,話者の性別や学習データ量の大小による影響を低減する新たな平均声モデル学習法を提案した。そして,平均声の音声合成とその評価実験および任意話者が発声した少量の音声データを用いて平均声モデルを話者適応した適応モデルからの音声合成とその評価実験により,従来法に比較して提案法による合成音声の品質が向上し,目標話者の大量の学習データに基づく話者依存モデルに近い合成音声が得られることを示した。さらに,平均声の学習法として,声道長正規化に基づく手法を提案し,その有効性の検討を行った。 2.多様な発話様式の合成に向けて,「丁寧」,「ぞんざい」,「楽しげ」,「悲嘆」という異なる様式で発声された音声データベースを作成し,HMM音声合成の枠組みによる音声単位のモデル化と合成音声の評価を行った。その結果,それぞれのデータベース中の発話様式を反映した音声が合成可能なこと,各様式に対応するモデルを補間することにより,中間的な様式の音声が合成できることを明らかにした。 3.インタラクションシステムのプラットホームとして,本研究担当者が開発に加わっている「擬人化音声対話エージェント基本ソフトウェア」を利用し,平均声モデルを話者適応したモデルから多様な声質での音声出力が可能なシステムの検討を行った。
|