研究課題/領域番号 |
24300068
|
研究機関 | 東京大学 |
研究代表者 |
広瀬 啓吉 東京大学, 情報理工学(系)研究科, 教授 (50111472)
|
研究分担者 |
齋藤 大輔 東京大学, 情報理工学(系)研究科, 助教 (40615150)
峯松 信明 東京大学, 工学(系)研究科(研究院), 教授 (90273333)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | 基本周波数パターン / 生成過程モデル / HMM音声合成 / 韻律制御 / Deep Neural Network / 音声変換 / 談話の焦点 / マルチストリーム |
研究実績の概要 |
基本周波数パターン生成過程モデルの制約をHMMの学習と合成に適用し、高品質音声合成を達成すると共に、モデルの指令差分に着目することで、種々の音声変換を少量の音声コーパスで高精度に実現することを目的とし、以下の成果を達成した。 1. 学習音声コーパスの各サンプルの基本周波数パターンを、生成過程モデルの枠組みで、フレーズ成分、アクセント成分、残差(モデルで表現されない成分)として階層表現し、それぞれをマルチストリームとして個別にHMMの学習・合成対象とすることにより、階層表現しない従来と比べ、発話内容の言語情報と基本周波数とのより明確な対応を実現した。これにより、目標音声との基本周波数パターンの一致度、及び、合成音声の主観評価値の向上を実現した。なお、基本周波数のモデル化として、MSD-HMMが一般的であるが、有声・無声の境界での表現に問題があった。これに対して、連続F0-HMMを利用可能とした。 2.上記で得られる基本周波数パターンが、生成過程モデルにより高精度に近似し得ることを確認した。その上で、モデルの指令を制御することで、談話の焦点を少量の学習コーパスから実現した。 3.多人数話者の音声データを効率よく利用し、話者変換精度を上げる手法として、各話者の特徴を行列変量混合ガウス分布として表現した上で、変換モデルを構築する手法を開発した。これにより、従来の混合ガウス分布による固有声声質変換法を超える性能を達成した。 4.Deep Neural Networkに基づく多人数話者間の声質変換手法を開発した。1つの話者非依存サブネットワークと複数話者の話者依存サブネットワークからなる構造とすることで、話者非依存な特徴量変換と話者依存の特徴量変換とを分けて効率的な学習を実現し、従来手法を超える変換性能を達成した。 5.日本語‐中国語のプロトタイプ音声翻訳システム構築して話者性を保存した言語変換を試みることで、これまでの成果の検証を行った。
|
現在までの達成度 (段落) |
26年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
26年度が最終年度であるため、記入しない。
|
次年度使用額が生じた理由 |
26年度が最終年度であるため、記入しない。
|
次年度使用額の使用計画 |
26年度が最終年度であるため、記入しない。
|