本研究は,すでに人間と遜色のない品質で合成可能な歌声合成技術の次のステップとして,人間には発声不可能だがコンテンツとして成立しうる「自然な非人間性」を有する歌声の合成技術開発を目標としている.具体的には,人間には発声することが不可能な特徴と,自然性を両立する音声パラメータを策定することが課題となる.ここでは,これまでの検討で開発した音声分析合成システムを活用し,人間の歌声が持つ揺らぎに着目して人間的に感じる知覚範囲を明らかにする心理実験を実施した.また,現在主流の統計的歌声合成に応用するため,音声のパラメータ表現を効率的に表現するための音声符号化に取り組んだ. H29年度は,初年度の検討結果を受けて,入力された歌声と,その歌声から特定のパラメータを取り除いた歌声を利用し,特定のパラメータを誇張する信号処理技術を開発した.この技術を活用することで,例えば,人間の声に含まれる揺らぎや,ビブラートの速さ,深さを誇張することが可能になる.本年度は,特定のパラメータを誇張し,自然性を保ったまま非人間的に加工可能な音声パラメータの範囲を心理実験により確認した.その結果,前年度の実験と同様に,基本周波数(高さ)とスペクトル包絡(音色)では,音色の変化に敏感であること,高さについては揺らぎを2倍程度に誇張しても人間性がある程度は保たれることが示された. 音声符号化については,フルバンド音声を対象とした,符号化前の合成音と比較して品質劣化を伴わない符号化を検討した.現在1フレームにつき基本周波数1次元,スペクトル包絡と非周期性指標がそれぞれ1025次元で表現している音声パラメータについて,品質の低下が起こらない条件化での符号化について検討した.音色についてはメルケプストラムを用いて50次元へ,非周期性指標については,帯域毎の代表値を用いることで,5次元まで圧縮できることを示した.
|