研究課題/領域番号 |
17300055
|
研究機関 | 東京大学 |
研究代表者 |
広瀬 啓吉 東京大学, 大学院情報理工学系研究科, 教授 (50111472)
|
研究分担者 |
峯松 信明 東京大学, 大学院新領域創成科学研究科, 助教授 (90273333)
|
キーワード | 生成過程モデル / 基本周波数パターン / 感情の程度 / 統計的手法 / HMM音声合成 / 2段階手法 / 焦点制御 / 音声コーパス |
研究概要 |
主として種々の発話スタイルの実現を目的として研究を進め、下記の成果を達成した。 1.生成過程モデルの指令の位置と大きさを、2分木により推定することにより、テキストから基本周波数パターンを生成する手法を開発したが、その中で、感情に関する要因は指令の大きさのみに関与することを明らかにした。 2.感情音声について、文節毎に、そこに込められた感情の程度を2段階でラベリングした音声コーパスを作成した。この感情の程度を上記1の手法の入力項目とすることにより、より適切な感情表現の合成音声が得られることを示した。 3.テキストから、休止の位置と長さ、各音素長、基本周波数パターンを、この順で生成し、HMM音声合成により合成音声を得る、テキスト音声合成の統計的手法を構築した。基本周波数パターンの生成は、上記1に基づくが、その際、推定した休止の位置と長さを入力項目とする必要があることを示した。また、アクセント指令の時点に制約を加えることで、推定精度が向上することを示した。 4.中国語を対象とした基本周波数パターン生成手法を開発し、その有効性を合成音声の聴取実験により確認した。この手法は、フレーズ成分をルールベースで、アクセント成分をコーパスベースで生成するものである。アクセント成分については、音調核という安定した基本周波数パターン部のみを2分木により推定し、それらを直線補間することで、少ないコーパスでも良好な推定が可能なことを示した。 5.上記の手法において、アクセント成分の推定の入力項目として、生成したフレーズ成分の情報を加える2段階手法を提案し、その有効性を合成音声の聴取により示した。また、この手法によれば、強調したい語の直前にフレーズ指令を置くことにより、合成音声において適切な焦点制御が実現できることを示した。これは、生成過程モデルにより、柔軟な韻律制御が可能なことを示す具体例である。
|