2008 Fiscal Year Annual Research Report
音声合成における発話様式・感情表現の多様化とその応用
Project/Area Number |
07J10295
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
橘 誠 Tokyo Institute of Technology, 大学院・総合理工学研究科, 特別研究員(PD)
|
Keywords | 音声合成 / 隠れマルコフモデル(HMM) / ヒューマンインタフェース / 感情表現を伴う音声合成 / 多様な発話様式による音声合成 / 合成音声の声質制御 / 発話様式・感情表現の推定 / 統計的音声処理 |
Research Abstract |
音声合成システムを擬人化対話エージェントやバーチャルアクターなどの様々なアプリケーションで幅広く利用するために,多様な感情表現や発話様式を含む音声を様々な声で合成できることが望まれている.本年度はこれまでに提案した平均声モデルとモデル適応手法を用いた重回帰隠れセミマルコフモデル(重回帰HSMM)にもとづく合成音声のスタイル制御手法の有効性を,様々な話者やスタイルに適用し評価を行った,その結果,プロのナレータの音声データだけでなく,新たに収録を行った一般話者の「平静(読上げ)」「悲しげ」「楽しげ」「不安」「嫌悪」「怒り」といったスタイルにおいても,50文章(およそ3〜5分)の目標話者・目標スタイルの音声データから,その目標話者・目標スタイルの音声を合成可能であることを示し,多様な感情表現を含む音声合成を様々な話者の声で容易に実現することが可能となった. また,ユーザの好みの声で話すことのできる音声合成システムを実現するために,合成音声の声質制御手法を提案した.この手法では「太い-細い」といった制御対象とする声質について,学習に用いる複数の話者の声質の印象と学習データの音響的特徴の関係を重回帰HSMMにより学習することで,合成時の声質の印象を「少し太い声」「やや細い声」といったユーザの好みに応じて直観的に変化させることが可能である.また,平均声モデルと話者適応を用いたモデル学習を取り入れたことで,より様々な声質特徴を制御対象とすることが可能となった.これにより,仮想のキャラクタの声のような目標話者のデータが得られない場合にも,所望の合成音声を容易に作ることができると考えられる.さらに,これまで提案した少量の目標話者の音声データからの重回帰HSMMの学習法を,音声認識システムや発話様式・感情表現の表出度合の推定に利用することで,自然発話や対話といった様々な感情表現が含まれる音声の認識システムの性能向上に有効である可能性が示されており,今後の音声合成・音声認識システムの発展に寄与すると考えられる.
|
Research Products
(28 results)