研究概要 |
自動電話番号案内/自動残高照会などの電話サービス,カーナビゲーションにおける音声インタフェース,パソコンあるいは電子機器などの音声入出力インタフェース,自動翻訳電話,など,音声によるヒューマンマシンインタフェースへの期待が高まっている.ところが,これらのシステムにおいて生成される合成音声は,予め定められた話者の声質・発話スタイル(通常、読み上げ口調)であるため,人間同士の対話と比べたときの違和感は大きく,音声によるヒューマンマシンインタフェースの普及を大きく阻害している.それに対し,申請者らは,「隠れマルコフモデル(HMM)に基づく音声合成」(以下,音声合成)方式を提案し,これまでに,話者適応,声質補間,更には固有声などの手法を確立し,他のテキスト音声合成方式では不可能あるいは困難であった様々な声質の音声を容易に合成できることを示した.ところが,新たに次のような問題が浮上してきた.すなわち,HMM音声合成は,音声データベースを用いた学習によりシステムを自動構築することが可能であるという大きな利点をもつが,このような自動学習のためには,音素ラベルおよび音素境界だけでなく,品詞,アクセントなどの言語・韻律情報を付与された音声データベースを必要とするという点である.この問題を解決するため,ラベリング作業を効率的に行う手法とそのためのソフトウェアツールの開発した上で,ラベリング自体を人手を介さず自動的に行うことを目指し,音声合成システムの自動構築手法に関する研究を行った.平成14年度では,まず,ラベリングを効率的に行う手法およびソフトウェアツールを開発し,それを用いて実際に大量の音声データに効率的にラベル付けを行うことを可能とした.平成15年度は,得られた音声データをベース用いて音声合成用統計モデルを学習し,このモデルに基づいてラベリングを自動的に行う手法を開発した.平成16年度においては,システムを更にチューニングし,評価を行った.
|