2018 年度研究成果報告書

歌声ビッグデータを活用した歌声の多様性を考慮する歌声情報処理

研究課題

PDF

研究課題/領域番号	17K12721
研究種目	若手研究(B)
配分区分	基金
研究分野	知覚情報処理
研究機関	国立研究開発法人産業技術総合研究所
研究代表者	中野倫靖国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10572927)
研究期間 (年度)	2017-04-01 – 2019-03-31
キーワード	歌声情報処理 / 信号処理 / 機械学習 / インタフェース / 情報可視化
研究成果の概要	本研究では、歌声に関する大規模データセット（歌声ビッグデータ）を用いて、歌声の多様性をモデル化する要素技術開発を行った。具体的には、楽曲中の歌声分析精度向上のために、どこに歌声があるのかを推定する技術、歌詞のどの音素がいつ歌われているかを推定する技術、音高推定と歌声の分離再合成技術を、確率モデルや深層学習に基づいた手法により性能向上した。また、無伴奏の歌声のスペクトル包絡を高精度に推定する基礎技術を開発した。さらに、それらを応用するため、「何を・どう歌っているか」を同時に可視化するインタフェース、歌声の繰り返しを活用したアノテーションのための新しい歌声可視化インタフェースを実現した。
自由記述の分野	歌声情報処理
研究成果の学術的意義や社会的意義	音楽に含まれる歌声は処理が難しく未解決で本質的な課題が多い。一方で、産業・文化の両面で主要なコンテンツである音楽における最も重要な要素の一つである。したがって、学術的および産業応用的な観点からの注目度が高い。本研究の成果における歌詞同期、音高推定、歌声分離等の混合音中の歌声分析技術は、世界的に活発に研究されており、その性能向上は学術的・産業応用的に意義がある。また、そのような要素技術の性能向上が、社会・エンドユーザの音楽活動を豊かにするためには、適切なインタフェースや可視化が必要不可欠であり、その新しい技術を実現した点でも社会的に意義がある。