2013 Fiscal Year Annual Research Report
基本周波数パターン生成過程モデルによる統計モデリング音声合成の韻律制御の高度化
Project/Area Number |
24300068
|
Research Institution | The University of Tokyo |
Principal Investigator |
広瀬 啓吉 東京大学, 情報理工学(系)研究科, 教授 (50111472)
|
Co-Investigator(Kenkyū-buntansha) |
峯松 信明 東京大学, 工学(系)研究科(研究院), 教授 (90273333)
齋藤 大輔 東京大学, 情報学環・学際情報学府, 助教 (40615150)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 基本周波数パターン / 生成過程モデル / HMM音声合成 / 韻律制御 / 統計モデリング / 声質変換 / 焦点制御 / 中国語音声 |
Research Abstract |
生成過程モデルの制約をHMMの学習、合成において適用することにより、音声合成の高品質化を図ると共に、指令の差分に着目することで、種々の音声変換を、少量の音声コーパスでより高精度に実現することを目的として下記の成果を達成した。 1. 学習コーパスの基本周波数(F0)パターンを生成過程モデルにより近似したものに置き換えて音素HMM を学習し、音声合成を行うことで従来より高品質が得られることを示しているが、F0パターンのうち、生成過程モデルで表現できない部分をF0差分として、HMM音声合成に組み入れることを行った。組み入れによって音質の低下はなく、有効性を確認した。生成過程モデルで表現されるF0パターンはアクセント型、フレーズ境界などと関連しているのに対し、F0差分は、音素情報などの比較的短時間の情報と関連している。F0パターンの階層構造をHMM音声合成に導入したものとして評価される。 2. 生成過程モデルにより近似されたF0パターンをHMMの学習コーパスとして利用した場合、合成の結果生成されるF0パターンは生成過程モデルに即したものになり、モデルパラメータの自動抽出が容易に高精度で行えると考えられる。実験によりこれを確認した。これにより、焦点の付与などの操作が可能となる。 3. 学習コーパスのF0パターンが大きく変動する部分は、その分析に問題があり、HMMの学習に悪影響を及ぼすと考えられる。F0パターンを生成過程モデルで近似した場合、誤差が大きくなる部分が、そのような場合に該当すると考え、音素単位で学習から除外する手法を開発し、その有効性を合成音声の聴取により+確認した。 4. 多人数を対象とした音声変換として、各話者の特徴を行列で表現して変換モデルを構築する手法を開発した。3名の間の変換を実装してその有効性を確認した。 5. 生成過程モデルの指令の違いに着目した焦点制御手法を中国語音声に適用し、階層的な焦点制御を実現した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
HMM音声合成に生成過程モデルの制約を導入し、特に韻律の観点から合成音声の品質の向上と制御の柔軟性を達成するのが、本研究の目標であるが、それに対し、学習コーパスのF0パターンを生成過程モデルで近似してモデル学習に用いる手法、合成で出力されたF0パターンを生成過程モデルで近似して再合成を行う手法を開発して、音声合成の聴取によりその有効性を確認するなど、順調に研究が進展している。前者において、合成されるF0パターンが、生成過程モデルにより容易かつ良好に近似し得ることを確認しており、HMM音声合成への生成過程モデルの制約の導入という観点からは、当初計画を上回る成果を達成している。また、F0残差をHMM音声合成で取り扱う枠組みを構築したが、これは、階層的なF0表現をHMM音声合成に導入したものと言え、今後の発展が大いに期待できる。柔軟な韻律制御については、焦点制御についてはほぼ手法が確立しているものの、意図、態度、感情については、指令の対応に対する取り組みがやや遅れている。現在進行中の複数指令の取り扱いの成果を利用して、これを解決する。中国語については、生成過程モデルの指令差分に着目した焦点制御を当初計画通りに達成している。GMM音声変換についても、行列表現による手法を実装して成果を上げている。
|
Strategy for Future Research Activity |
生成過程モデル指令の差分に着目した韻律変換をもとに、話者変換の韻律変換手法を開発する。言語変換の場合のように、変換前と変換後の話者のパラレル音声が得られない場合についても鋭意、研究を進める。生成過程モデルの指令を2分木で推定する手法を開発しており、パラレル音声が得られる場合は、これを変換前後の音声で連結して学習し、リーフ間の対応を取ることで変換を実現することを考えているが、パラレル音声が得られない場合は、変換後の音声を複数の話者について用意した上で指令推定の二分木を構築し、バイリンガル音声で変換前後の音声の対応を取り、それをもとに二分木で推定される値の補間を取ることを行う。 F0残差をHMM音声合成に導入する過程で、メルケプストラム係数+F0モデルによるF0とF0残差をマルチストリームで学習することを進めている。これにより、従来のmulti-space probability distribution HMMに代わり、有声・無声境界での良好な韻律制御が期待される連続F0HMMを導入することが容易になるとの感触を得ている。計画調書には記載していなかったが、音声合成の性能向上が期待され、これについても精力的に研究を進める。 音声対話システム、音声翻訳システムに実装して、開発した音声合成手法の評価を行うことについては、当初の予定通り進める。
|
Expenditure Plans for the Next FY Research Funding |
合成音声の評価実験を一部、次年度に行う。 合成音声の評価実験用者謝金として支出する。
|