Research Abstract |
本研究は,現在主流の波形接続方式の音声合成とは異なり,音声生成過程に基づく音声合成手法をシステムとして開発することを目的とする。この方式は,人間の発話メカニズムを模倣した声帯や声道のモデルに基づいて音声波形出力をシミュレートするため,音声信号の蓄積を必要としない。また,調音器官の運動の連続性による滑らかな連続音の生成の他,音声生成の源となる声帯や声道のパラメータを種々に設定することで,声の高さや話速の変更,男声や女声の合成など,バラエティー豊かな合成音の生成が期待され,その融通性に大きな特徴がある。この融通性を積極的に活用することで,発話代行等の信号変換器(コンバータ)としての応用研究を目的とするものである。 子音の合成では,閉鎖等の生じる位置の設定をはじめとする断面積の与え方の他,その形状を時間的にどのように変化させるかという動的要素の設定が重要である。本研究では,子音/p, t, k/のような破裂音の生成を確実にする関連パラメータの適切な設定について,動的要素の設定が容易にできるシミュレーションシステムを開発し検討した。これにより,パラメータ値の設定範囲が明らかとなり,さらにそれらを踏まえたパラメータ設定自動化機能を実現し,より容易に確実に子音の合成ができる音声合成システムを構築した。 音声合成では,肉声らしさを実現するために音声波形のゆらぎをいかに実現するかが重要であり,人間が発話した音声データを用いない合成法ではそのゆらぎの生成モデルの検討が不可欠となる。本研究では,声帯振動制御に関与する本システムの声帯緊張パラメータに着目し,パラメータ値にゆらぎモデルを導入しその効果を調べた。ゆらぎモデルとして小室粕谷のモデルを用い,合成音声を比較評価した。その結果,モデル化に関与するパラメータの設定値が明らかとなった。ただし,音質はまだ十分ではなく,継続して研究を進める。 インタフェース統合に向けた画像処理や視線入力インタフェースに関しても,個々のシステム開発を進め,統合時に関連すると思われるパラメータの評価等を行った。
|