研究概要 |
本研究は,2つの音声から主観的にその中間的な印象を与える音声を合成可能な音声モーフィング技術の高品質化を目標とする.本年度は,音声モーフィング技術の品質向上のみならず,音声モーフィング技術の基盤となる高品質音声分析変換合成法TANDEM-STRAIGHTの計算コスト削減と高速化を実現する分析法の提案,および実時間分析合成を可能とするC言語ライブラリの実装と配布を目標として研究を進めた. 音声モーフィングは,申請者らが提案したTANDEM-STRAIGHTを用いて音声を3つの音響パラメタ(基本周波数,スペクトル包絡,非周期性指標)に分離し,それぞれの音響パラメタをモーフィングし再合成することで実現される.高品質なモーフィングを実施するためには,モーフィングを実施する2つの音声の音素境界やフォルマント周波数に相当するスペクトルのピークを対応付ける必要がある.従来の音声モーフィング技術では,作業者の経験による手作業により対応付けが行われている.対応付けは,数秒の音声のモーフィングにおいても数時間を要する煩雑なものである. 本研究では,対応付けを,同一楽曲の歌唱では声質の類似した歌手が歌うという制約を利用し,(1)音声認識ソフトウェアによる時間軸の自動対応付け,(2)フォルマントが隣接した周波数に存在するという条件を利用した周波数軸の対応付けの省略により自動化できることを示した.また,有声音成分のみを他者のものと置き換えることで,調音結合やフォルマントの対応付けを必要としない声質変換を実現する技術の提案を行った.さらに,TANDEM-STRAIGHTにおける音声分析法の高速化を実現することで,モーフィングを含む音声分析合成の一連の作業を高速化することに成功した.これらの技術をより広く周知させるため,TANDEM-STRAIGHTによる音声の分析合成を実時間にて実現するC言語のライブラリをフリーで利用できるようにWebを通じて配布した.配布されたライブラリを用いた歌唱合成システムが開発された実績を持つことからも,本研究の主要な成果を社会還元することに成功したといえるだろう.
|