研究概要 |
本研究はロバスト音声合成とロバスト音声認識に関する5項目の基盤要素技術の研究・開発からなり,本年度は以下の成果が得られた。 感情表現・発話様式・声質を制御可能な音声合成に関しては,隠れマルコフモデルに基づく音声合成(HMM音声合成)の枠組みに,基本周波数(FO)量子化に基づく韻律コンテキストを導入することを提案し,FOの正規化及び量子化方法の検討,平均声モデルに基づくテキスト音声合成を利用した韻律コンテキストの付与手法等の基本的な検討を行い,韻律モデルの教師なし学習が可能となることを示した。さらに,提案法を声質変換に適用した場合の有用性を示した。 自然発話・会話音声の合成に関しては,HMM音声合成の枠組みに基づいて,日本語話し言葉音声コーパス(CSJ)を用いた対話音声の合成のための音響モデル構築手法の検討を行い,音響モデル構築に用いるコンテキストの重要性を明らかにした。 パラ言語情報の検出・表出度合推定では,重回帰HMMに基づいたスタイル推定手法を提案し,感情表現や発話様式の種別のみならず,その表現度合を連続量として推定可能なことを示した。また,自然発話音声の発話様式の識別に応用し,その有用性を示した。 話者・スタイル変動に頑健な音声認識に関しては,重回帰HMMに基づいた高速なスタイル適応方式を提案し,感情音声や自然発話音声の認識におけるモデル適応に利用した場合,1文章毎のオンライン適応という少量の適応データしか使用できない場合でも認識率が向上することを明らかにした。 動作からのパラ言語情報の抽出に関しては,3次元フェイスモデルに基づいて話し手の顔の3次元姿勢を推定し,この時間的変位から動作の分類や非言語情報を獲得する手法の基礎的な検討を行った。
|