2010 Fiscal Year Annual Research Report
ヒューマノイド音声対話システムのための話し言葉音声合成に関する研究
Project/Area Number |
21800020
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
能勢 隆 東京工業大学, 大学院・総合理工学研究科, 助教 (90550591)
|
Keywords | テキスト音声合成 / 隠れマルコフモデル / 話し言葉音声 / 話者適応 / HMM音声合成 / ヒューマノイドロボット / 音声対話システム / 声質変換 |
Research Abstract |
本研究はヒューマノイド音声対話システムの実現に向けた多様な音声の認識・合成技術のための各基盤要素技術の研究・開発からなり、本年度は以下に示す3項目について成果が得られた。 (1)話し言葉音声の合成において、目標話者の少量の音声のみから自然な合成音声を生成するためにモデルの学習に読み上げ音声による平均声モデルを導入した二段階モデル適応を提案した。これにより収録やラベル付けにコストがかかる話し言葉音声の利用を極力抑え、既に整備されている豊富な読み上げ音声データベースを用いることにより話し言葉らしさと自然性のバランスが取れた音声を合成することが可能となった。また、強調や語尾上げなどの話し言葉音声において特徴的な表現を考慮したモデル学習によりこれらの表現を合成音声に反映できることを示した。 (2)音声合成における多様化技術として注目されている声質変換技術について、声の高さを表す基本周波数(FO)情報の変換精度を改善するために適応FO量子化に基づく手法を提案した。また任意の間で容易に変換を行うことを目的として不特定話者モデルに基づく声質変換法を提案した。さらに、従来問題となっていた音素認識精度に依存する問題を回避する手法として隠れマルコフモデル(HMM)と混合正規分布を組み合わせた手法を提案した。これらの手法を読み上げ音声に適用した結果良好な結果が得られたため、今後は感情音声や話し言葉音声などのより多様な表現を含む音声についても検討を行う。 (3)HMMに基づく音声合成では声の高さやリズムなどの変化を適切に表現・モデル化するため、音声の音韻および韻律情報をコンテキストとして考慮している。本年度は昨年度の日本語音声に対する評価に加え、あらたに多言語音声合成の実現を目的として、英語音声についても評価を行った。
|