これまでの音声関連技術に関する研究は,音声の生成モデルに基づいており,その中で取り扱える枠組みの中に制限されていたため,モデル構造に関する過度な制約が性能の限界に繋がっていたが,本研究により,これまでのデジタル信号処理における波形生成モデルとは全く異なる性質を持つ高性能なモデル化が期待でき,合成された歌声の品質も格段に向上することが期待される.前年度までは,学習対象データの取捨選択方法の検討や,音声波形自体のモデリング手法の検討,楽譜から波形への直接変換が可能なEnd-to-End構造の検討などを進めてきた.脳神経系を模倣した非線形変換が可能なモデルであるDNNに基づいたモデル構造はいくつか考えられるが,深層学習に基づいて周期・非周期信号から音声波形を生成する構成で非常に自然な音声を生成することができたため,本研究年度は周期信号と非周期信号の相互依存性の検証などを行った.構成としては,周期信号と非周期信号を同時に入力・変換するものや,個別に入力・変換するもの,さらに周期波形が非周期波形に影響を及ぼすことを仮定するものなどについて,比較・検討を行った.一部の実験結果では,周期波形と非周期波形の依存性をあえて考慮しないほうがより頑健に駆動することがわかるなど,限られた学習対象データをうまく効率的にモデリングできることを示した.それらの研究成果は,歌声または楽器音を対象として実験を進め,その一部を学術論文としてまとめ,投稿・発表することができた.
|