本研究では、歌声に関する大規模データセット(歌声ビッグデータ)を用いて、歌声の多様性をモデル化する要素技術開発を行った。具体的には、楽曲中の歌声分析精度向上のために、どこに歌声があるのかを推定する技術、歌詞のどの音素がいつ歌われているかを推定する技術、音高推定と歌声の分離再合成技術を、確率モデルや深層学習に基づいた手法により性能向上した。また、無伴奏の歌声のスペクトル包絡を高精度に推定する基礎技術を開発した。さらに、それらを応用するため、「何を・どう歌っているか」を同時に可視化するインタフェース、歌声の繰り返しを活用したアノテーションのための新しい歌声可視化インタフェースを実現した。
|