2018 Fiscal Year Annual Research Report
Singing information processing considering diversity of singing voice utilizing singing big data
Project/Area Number |
17K12721
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
中野 倫靖 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10572927)
|
Project Period (FY) |
2017-04-01 – 2019-03-31
|
Keywords | 歌声情報処理 / 信号処理 / 機械学習 / インタフェース / 情報可視化 |
Outline of Annual Research Achievements |
本研究では、歌声ビッグデータからの歌声空間の構築に基づく歌声合成品質の向上と、歌声空間の応用(インタフェース)を目的としている。従来、歌声合成には無伴奏の歌声が用いられていたが、伴奏等の背景音を伴う歌声(混合音)も対象として、より多様な声質や歌い方に適用可能とする。そのために、混合音からの歌声特徴の高精度な抽出が必要となる。 まず、無伴奏の歌声を対象にそのスペクトル包絡を高精度に推定する基礎技術の開発に引き続き取り組み、より性能を向上させることができた。また、音楽に含まれる歌声(ボーカル)からの音高抽出と歌声信号の分離再合成技術を開発し、その性能向上を確認できた。本手法は歌声ビッグデータを活用可能な深層学習の枠組みを用いて実現した。 応用展開として、多様な合成に特化した歌声インタフェース構築のために、歌声の繰り返しを活用する新しい歌声可視化方法を実現した。ここでは、伴奏を含んだ歌声を活用する上で、音楽に含まれるボーカルの音高をアノテーションする新しいインタフェースを開発した。ソースコードエディタや表計算ソフトウェアで使用されるオートコンプリート機能のように、繰り返される類似区間を同時に可視化しながらアノテーションでき、既にアノテーションした結果を類似区間に反映させることができる。このような音楽の繰り返し構造の活用は、アノテーションだけではなく、歌声合成を用いた楽曲制作における発展につながると考えている。
|