研究課題
本研究は、あたかも人間が話しているかのような、より自然でより多様な音声合成システムの実現を目指すものであり、平成23年度は以下の4項目について成果が得られた。(1)ユーザの主観に基づいた感情音声合成:従来、合成音声に含まれる感情表現の度合は学習データによって決まり、ユーザ(聞き手)が「どのように感じるか」は考慮されていなかった。この問題を解決するため、ユーザによる主観的な感情の度合を定量化してモデル学習に組み込む新たな枠組を提案し、その有効性を示した。(2)教師なし学習に基づく強調音声の合成:強調音声を合成するためには強調表現を含む音声に対し各文章のどの部分に強調表現が現れるかをラベルとして記述する必要がある。より自然な発話様式を伴う音声に対し、これを主観評価により行うには大きなコストが伴い、また評価者間での一致性の問題などが避けられない。提案法では声の高さを表す基本周波数(F0)に着目し、F0生成を利用した自動ラベリングを実現した。(3)話し言葉音声合成のための韻律モデルの改善:従来の音声合成の枠組では高い自発性をもちかつ自然な話し言葉音声を生成することは極めて難しい。本研究では韻律の変動要因としてToBIラベルに基づく詳細な情報を導入し、またこのためのモデルとして韻律単位HMMを提案し、その有効性を示した。(4)任意話者における合成音声のスタイル変換法:任意の話者の多様な感情表現や発話様式を実現するために、それらを含む音声を目標話者毎に用意するには大きなコストがかかるため、その話者の読み上げ調の音声のみから多様なスタイルの音声を合成できることが望ましい。提案法ではこれを実現するため、あらかじめ複数話者間のスタイルの変換規則をHMMに基づくスタイル適応の枠組で学習し、これを目標話者の読み上げ調のモデルに適用することで、任意話者のスタイル音声合成を実現した。
2: おおむね順調に進展している
平成23年度は本研究課題の基盤となる理論の構築に重点をおいて研究を進め、おおむね予想した通りの成果が得られた。
平成24年度は前年度に構築した理論を元に、実際に音声データベースを構築し、その分析を行う。そして分析結果に基づき理論の改善を行い、実環境での利用を目的とした合成音声の生成を行う。
平成23年度には基盤となる理論の構築を優先し、一部の音声データ収録を後回しにししたため、これを次年度に計上することとした。平成24年度は、当初の予定分も合わせて音声データ収録、環境の整備を行い、研究を進める。
すべて 2012 2011
すべて 雑誌論文 (21件) (うち査読あり 10件) 学会発表 (18件)
Speech Communication
ページ: 384-392
10.1016/j.specom.2011.10.002
巻: Vol.54, No.2 ページ: 245-255
10.1016/j.specom.2011.08.006
電子情報通信学会論文誌
巻: vol.J95-D, no.3 ページ: 597-607
日本音響学会2012年春季研究発表会講演論文集
巻: vol.1 ページ: 307-308
巻: vol.1 ページ: 305-306
巻: Vol.53, No.7 ページ: 973-985
10.1016/j.specom.2011.05.001
Proc. 2011 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2011
巻: vol.1 ページ: 5236-5239
巻: vol.1 ページ: 4708-4711
Proc. 12th Annual Conference of the International Speech Communication Association, INTERSPEECH 2011
巻: vol.1 ページ: 2657-2660
巻: vol.1 ページ: 1953-1956
巻: vol.1 ページ: 1849-1852
巻: vol.1 ページ: 109-112
日本音響学会2011年秋季研究発表会講演論文集
巻: vol.1 ページ: 335-336
巻: vol.1 ページ: 333-334
巻: vol.1 ページ: 329-330
巻: vol.1 ページ: 9-10
電子情報通信学会技術研究報告
巻: vol.111, no.28 ページ: 155-160
巻: vol.111, no.365 ページ: 197-202
巻: vol.111, no.365 ページ: 191-196
巻: vol.111, no.365 ページ: 185-190
巻: vol.111, no.365 ページ: 179-184