2012 Fiscal Year Annual Research Report

基本周波数パターン生成過程モデルによる統計モデリング音声合成の韻律制御の高度化

Research Project

Project/Area Number	24300068
Research Category	Grant-in-Aid for Scientific Research (B)
Research Institution	The University of Tokyo
Principal Investigator	広瀬啓吉東京大学, 大学院・情報理工学系研究科, 教授 (50111472)
Co-Investigator(Kenkyū-buntansha)	峯松信明東京大学, 大学院・工学系研究科, 教授 (90273333) 齋藤大輔東京大学, 大学院・情報理工学研究科, 助教 (40615150)
Project Period (FY)	2012-04-01 – 2015-03-31
Keywords	基本周波数パターン / 生成過程モデル / HMM音声合成 / 韻律制御 / 統計モデリング / 音声変換 / 談話の焦点 / 声調核モデル
Research Abstract	言語情報、さらにはパラ・非言語情報との明確な対応のもとで、単語、句などの長時間にわたる韻律の特徴を離散的な指令として良好に表現し得る生成過程モデルの制約をHMMの学習、合成において適用することにより、音声合成の高品質化を図ると共に、指令の差分に着目することで、種々の音声変換を、少量の音声コーパスでより高精度に実現する。本年度の具体的な成果は下記の通り。 1.中国語音声コーパスとして、中国科学院JianHua Tao教授の協力を得て、感情音声を含め、種々の調子で発声した音声を用意した。日本語音声コーパスについても同様に収録した。 2.経験的モード分割による適応的帯域分割に基づく基本周波数(FO)抽出手法を構築するとともに、観測されるFOパターンに対し、生成過程モデルの最良近似を自動的に高精度に行う手法を開発した。 3.朗読音声について音素モデル(HMM)を作成して日本語と中国語のHMM音声合成を行い、韻律の観点からの問題点を整理した。また、異なる話者・調子へのHMMの適応手法を実装した。なお、HMMの特徴量分布構築のための質問項目を整理し、適応により適したものとした。 4.学習コーパスのFOパターンを生成過程モデルで得られるそれに置き換えて音素HMMを学習してHMM音声合成を行い、従来のHMM音声合成より高品質が得られることを示した。 5.従来のH剛音声合成で得られるFOパターンを生成過程モデルで近似することで、音質が向上すること、また指令を制御することで、談話の焦点を少量の学習コーパスから実現した。 6.中国語については、声調核モデルによる韻律表現と音声合成を行い、その有効性を確認した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 調子・スタイル空間の構築が途中であるが、一方、生成過程モデルによるFOパターンの自動分析、-学習コーパスの韻律の生成過程モデルによる修正では、学習に悪影響を与えるサンプルの自動削除手法なども含め、当初予定していたよりも多くの成果を挙げることが出来た。
Strategy for Future Research Activity	HMM音声合成ににおいて、学習時と合成時に生成過程モデルの制約をかけることにより、合成音声の品質が向上することを、それぞれについて示したが、両者を統合することにより更なる性能の向上を図る。合成に用いるFOパターンは生成過程モデルで生成されるため、モデルに基づく焦点付与とスタイル、話者変換手法の構築を進める。生成過程モデルで表現されないFOパターンの差分を音声合成に反映させる手法の開発を目指す。
Expenditure Plans for the Next FY Research Funding	初年度は、韻律コーパス・音声合成のための機器を、予定よりも安価で購入することが出来た。2年度目には、音声変換等で計算負荷が増大することが予定されるので、高性能の計算サーバーの購入を予定する。また、初年度は聴取実験等が当初予定より少なかったが、2年度目以降、音声変換実験が本格化するので、それに対応した支出を予定している。

Research Products
(4 results)

All 2012

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (1 results)

[Journal Article] Applying generation process model constraint to fundamental frequency contours generated by hidden- Markov-model-based speech synthesis2012
- Author(s)
  Tatsuya Matsuda, Keikichi Hirose, and Nobuaki Minematsu
- Journal Title
  
  Acoustical Science and Technology, Acoustical Society of Japan
  
  Volume: 33 Pages: 221-228
- Peer Reviewed
[Journal Article] A method for generation of Mandarin FO contours based on tone nucleus model and superpositional model2012
- Author(s)
  Qinghua Sun, Keikichi Hirose, and Nobuaki Minematsu
- Journal Title
  
  Speech Communication
  
  Volume: 54 Pages: 932-945
- Peer Reviewed
[Journal Article] Improved automatic extraction of generation process model commands and its use for generating fundamental frequency contours for training HMM-based2012
- Author(s)
  Hiroya Hashimoto, Keikichi Hirose, and Nobuaki Minematsu
- Journal Title
  
  Proceedings INTERSPEECH
  
  Volume: CD Pages: 1-4
- Peer Reviewed
[Presentation] Use of generation process model for synthesizing fundamental frequency contours in HMM-based speech synthesis2012
- Author(s)
  Keikichi Hirose
- Organizer
  IEEE International Conference on Signal Processing
- Place of Presentation
  北京, 中国(招待講演)
- Year and Date
  2012-10-22

2012 Fiscal Year Annual Research Report

基本周波数パターン生成過程モデルによる統計モデリング音声合成の韻律制御の高度化

Principal Investigator

広瀬 啓吉 東京大学, 大学院・情報理工学系研究科, 教授 (50111472)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Applying generation process model constraint to fundamental frequency contours generated by hidden- Markov-model-based speech synthesis2012

Author(s)

Journal Title

[Journal Article] A method for generation of Mandarin FO contours based on tone nucleus model and superpositional model2012

Author(s)

Journal Title

[Journal Article] Improved automatic extraction of generation process model commands and its use for generating fundamental frequency contours for training HMM-based2012

Author(s)

Journal Title

[Presentation] Use of generation process model for synthesizing fundamental frequency contours in HMM-based speech synthesis2012

Author(s)

Organizer

Place of Presentation

Year and Date

広瀬啓吉東京大学, 大学院・情報理工学系研究科, 教授 (50111472)