研究概要 |
自動電話番号案内/自動残高照会/電子メール読み上げなどの電話サービス,カーナビゲーションにおける音声インタフェース,パソコンの音声入出力インタフェース,自動翻訳電話,など,音声認識,音声合成の技術を用いた各種システムが実用化の段階に入ろうとしており,その将来への期待が高まっている.ところが,この中で用いられる多くの音声合成システムは,予め定められた話者の声質、および発話スタイル(通常、読み上げ調)でしか音声を合成することができず,人間同士との対話との違和感は大きい. このような現状に鑑み,本研究課題では,新たに提案する「音声合成における固有声」の概念と手法に基づいて多様な話者の声質,発話様式(「嬉しそうに」,「悲しそうに」など)を自在に実現することのできる音声合成システムを構築することを目的とした.まず,固有声計算手法を理論面から整理し,音声合成に適した手法を導出した.次に,多数話者の音声データベースを構築した上で,それに基づき実際に「固有声に基づく音声合成システム」を構築し,固有声重みの設定により多様な声質が得られること,また,基本的な音声品質に劣化がないことを確認した.そして,構築した「固有声に基づく音声合成システム」に関して,各固有声重みと生成される声質との対応について,主観評価実験に基づき,統計的分析を行った.最終的に,分析結果に基づいて,ユーザが好みの声質を表現語(例:男性的で,若々しく,元気な声)により自在に設定することのできる音声合成システムを構築した.
|