Research Abstract |
音声データに付与すべき情報は,アクセント,品詞,活用形,活用形,文構造,読み,発音,更には,単語に対するフォーカス,発話様式など,複数あり,それらはお互いに何らかの相互関係をもっているため,独立に取り扱った場合には,データの不整合を引き起こし,人手でこれを修復することは困難となる.当該研究グループでは,音声データベースに付与された韻律・言語情報ファイルを人手,あるいは簡易編集プログラムにより,編集していたが,この作業は忍耐強いものであり,しばしば記述の間違いを引き起こしていた.このため,言語情報ファイルの編集作業が,大量の音声データを学習するための障害となっていた.この問題を解決するには,ラベリング作業を効率的に行う手法とそのためのソフトウェアツールの開発が急務であり,更には,ラベリング自体を人手を介さず自動的に行うことが,音声合成システムの自動構築のためには必須である.平成14年度では,まず,ラベリングを効率的に行う手法およびソフトウェアツールを開発し,それを用いて実際に大量の音声データに効率的にラベル付けを行うことを可能とした.平成15年度は,得られた音声データをベース用いて音声合成用統計モデルを学習し,このモデルに基づいてラベリングを自動的に行う手法を開発した.平成16年度においては,システムを更にチューニングし,評価を行った.まとめると以下の通りとなる. (1)自動ラベル付け手法を更に改善した. (2)実際に音声合成システムを自動構築し,評価を行った. (3)評価結果に基づき,問題点を洗い出すとともに,更なる改善を行った.
|