研究概要 |
本研究では「平均声からの音声合成」という新たな音声合成の枠組みを発展させ,任意の話者の多様な声質や発話様式など,各個人が持っている話し方の個性を自由に表現でき,気の利いた音声インタラクションが実現可能な音声合成システムを開発することを目的とし,研究の第2年度として,平均声のモデル化・適応手法の精密化,および多様な発話スタイル・感情を含む音声のモデル化と適応手法の検討を行うとともに,初年度に引続き研究基盤の整備を行った。 まず,平均声のモデル化手法とモデル適応手法の精密化では,これまで近似的に実装されてきた音韻継続長のモデル化と適応手法について,隠れマルコフモデルに状態継続長分布を明示的に導入した隠れセミマルコフモデルを用いる定式化とこれに基づくモデル適応アルゴリズムを提案した。主観評価実験を通して,従来法に比べてより精密なモデル化と自然性の高い音声の合成が可能であることを示した。適応手法についても拡張話者適応学習に基づく新たな手法の検討を行った。一方,発話スタイル・感情を含む音声に対しては,各スタイルの強調度合を直接的に指定可能なスタイル制御手法を提案し,評価実験を通して有効性を示した。また,スタイル補間手法についても,より詳細な評価実験を行った。さらに,「安心/不安」,「親しげ/嫌悪」,「速く/ゆっくり」というスタイルについても,モデル化を検討した。この他にも,モデル構築における決定木の停止基準に関する検討,研究実施の基盤となる音声データベースの整備を行った。
|