2012 Fiscal Year Annual Research Report
基本周波数パターン生成過程モデルによる統計モデリング音声合成の韻律制御の高度化
Project/Area Number |
24300068
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | The University of Tokyo |
Principal Investigator |
広瀬 啓吉 東京大学, 大学院・情報理工学系研究科, 教授 (50111472)
|
Co-Investigator(Kenkyū-buntansha) |
峯松 信明 東京大学, 大学院・工学系研究科, 教授 (90273333)
齋藤 大輔 東京大学, 大学院・情報理工学研究科, 助教 (40615150)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 基本周波数パターン / 生成過程モデル / HMM音声合成 / 韻律制御 / 統計モデリング / 音声変換 / 談話の焦点 / 声調核モデル |
Research Abstract |
言語情報、さらにはパラ・非言語情報との明確な対応のもとで、単語、句などの長時間にわたる韻律の特徴を離散的な指令として良好に表現し得る生成過程モデルの制約をHMMの学習、合成において適用することにより、音声合成の高品質化を図ると共に、指令の差分に着目することで、種々の音声変換を、少量の音声コーパスでより高精度に実現する。本年度の具体的な成果は下記の通り。 1.中国語音声コーパスとして、中国科学院JianHua Tao教授の協力を得て、感情音声を含め、種々の調子で発声した音声を用意した。日本語音声コーパスについても同様に収録した。 2.経験的モード分割による適応的帯域分割に基づく基本周波数(FO)抽出手法を構築するとともに、観測されるFOパターンに対し、生成過程モデルの最良近似を自動的に高精度に行う手法を開発した。 3.朗読音声について音素モデル(HMM)を作成して日本語と中国語のHMM音声合成を行い、韻律の観点からの問題点を整理した。また、異なる話者・調子へのHMMの適応手法を実装した。なお、HMMの特徴量分布構築のための質問項目を整理し、適応により適したものとした。 4.学習コーパスのFOパターンを生成過程モデルで得られるそれに置き換えて音素HMMを学習してHMM音声合成を行い、従来のHMM音声合成より高品質が得られることを示した。 5.従来のH剛音声合成で得られるFOパターンを生成過程モデルで近似することで、音質が向上すること、また指令を制御することで、談話の焦点を少量の学習コーパスから実現した。 6.中国語については、声調核モデルによる韻律表現と音声合成を行い、その有効性を確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
調子・スタイル空間の構築が途中であるが、一方、生成過程モデルによるFOパターンの自動分析、-学習コーパスの韻律の生成過程モデルによる修正では、学習に悪影響を与えるサンプルの自動削除手法なども含め、当初予定していたよりも多くの成果を挙げることが出来た。
|
Strategy for Future Research Activity |
HMM音声合成ににおいて、学習時と合成時に生成過程モデルの制約をかけることにより、合成音声の品質が向上することを、それぞれについて示したが、両者を統合することにより更なる性能の向上を図る。合成に用いるFOパターンは生成過程モデルで生成されるため、モデルに基づく焦点付与とスタイル、話者変換手法の構築を進める。生成過程モデルで表現されないFOパターンの差分を音声合成に反映させる手法の開発を目指す。
|
Expenditure Plans for the Next FY Research Funding |
初年度は、韻律コーパス・音声合成のための機器を、予定よりも安価で購入することが出来た。2年度目には、音声変換等で計算負荷が増大することが予定されるので、高性能の計算サーバーの購入を予定する。また、初年度は聴取実験等が当初予定より少なかったが、2年度目以降、音声変換実験が本格化するので、それに対応した支出を予定している。
|