2017 Fiscal Year Annual Research Report
Study on new vocal design focusing on naturally dehumanized singing
Project/Area Number |
16K12511
|
Research Institution | University of Yamanashi |
Principal Investigator |
森勢 将雅 山梨大学, 大学院総合研究部, 准教授 (60510013)
|
Co-Investigator(Kenkyū-buntansha) |
能勢 隆 東北大学, 工学研究科, 准教授 (90550591)
|
Project Period (FY) |
2016-04-01 – 2018-03-31
|
Keywords | 感性情報学 / 歌声情報処理 / 統計的歌声合成 |
Outline of Annual Research Achievements |
本研究は,すでに人間と遜色のない品質で合成可能な歌声合成技術の次のステップとして,人間には発声不可能だがコンテンツとして成立しうる「自然な非人間性」を有する歌声の合成技術開発を目標としている.具体的には,人間には発声することが不可能な特徴と,自然性を両立する音声パラメータを策定することが課題となる.ここでは,これまでの検討で開発した音声分析合成システムを活用し,人間の歌声が持つ揺らぎに着目して人間的に感じる知覚範囲を明らかにする心理実験を実施した.また,現在主流の統計的歌声合成に応用するため,音声のパラメータ表現を効率的に表現するための音声符号化に取り組んだ. H29年度は,初年度の検討結果を受けて,入力された歌声と,その歌声から特定のパラメータを取り除いた歌声を利用し,特定のパラメータを誇張する信号処理技術を開発した.この技術を活用することで,例えば,人間の声に含まれる揺らぎや,ビブラートの速さ,深さを誇張することが可能になる.本年度は,特定のパラメータを誇張し,自然性を保ったまま非人間的に加工可能な音声パラメータの範囲を心理実験により確認した.その結果,前年度の実験と同様に,基本周波数(高さ)とスペクトル包絡(音色)では,音色の変化に敏感であること,高さについては揺らぎを2倍程度に誇張しても人間性がある程度は保たれることが示された. 音声符号化については,フルバンド音声を対象とした,符号化前の合成音と比較して品質劣化を伴わない符号化を検討した.現在1フレームにつき基本周波数1次元,スペクトル包絡と非周期性指標がそれぞれ1025次元で表現している音声パラメータについて,品質の低下が起こらない条件化での符号化について検討した.音色についてはメルケプストラムを用いて50次元へ,非周期性指標については,帯域毎の代表値を用いることで,5次元まで圧縮できることを示した.
|
Research Products
(11 results)