Research Abstract |
本研究はロバスト音声合成とロバスト音声認識に関する5項目の基盤要素技術の研究・開発からなり,本年度(最終年度)は第二年度までに得られた成果に基づいて,残された問題点の解決に向けた新たな手法の提案とその評価検討を行い,以下の成果が得られた。 感情表現・発話様式・声質を制御可能な音声合成に関しては,基本周波数量子化コンテキストを用いた音声合成,声質変換及び音声符号化システムのそれぞれについて詳細な性能評価を行い,従来手法に対する提案手法の有効性を明らかにした。また,タイ語の音声合成に応用した場合についても詳細な評価を行い,声調を含む韻律生成において提案手法の有効性を示した。さらに,不特定話者を対象とした音声のスタイル制御法を新たに提案し,評価検討を行った。 自然発話・会話音声の合成に関しては,隠れマルコフモデルに基づく音声合成(HMM音声合成)の枠組みに基づいて提案した新たなコンテキストセットについて詳細な評価を行い,多様性が高い自然発話対話音声の自然な韻律の実現に有用であることを明らかにすると共に,モデルパラメータ共有のための決定木停止基準や,より効率的な基本周波数モデリングのための新たな韻律モデル単位を提案し,それらの有用性を示した。 パラ言語情報の検出・表出度合推定,話者・スタイル変動に頑健な音声認識,動作からのパラ言語情報の抽出の3項目に関しては,問題解決に向けた提案手法における共通基盤技術となる重回帰隠れマルコフモデル(重回帰HMM)のための学習法について検討を行い,主観的な表出度合を考慮する適応学習を組込んだ新たな学習法を提案し,主観評価と重回帰説明変数の相関性を高める効果があることを示した。
|