2017 Fiscal Year Research-status Report
歌声ビッグデータを活用した歌声の多様性を考慮する歌声情報処理
Project/Area Number |
17K12721
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
中野 倫靖 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10572927)
|
Project Period (FY) |
2017-04-01 – 2019-03-31
|
Keywords | 歌声情報処理 / 信号処理 / 機械学習 / インタフェース / 情報可視化 |
Outline of Annual Research Achievements |
歌声空間に基づく歌声分析モジュールの高性能化に関して、背景音楽を含む楽曲中の歌声分析精度向上に取り組んだ。まず、楽曲中のどこに歌声があるのかを推定する歌声区間推定技術(VAD)として、歌声を含まないイントロ(楽曲冒頭)の音響特徴量を事前学習することで、認識精度が向上することを確認した。また、歌声区間中どの音素がいつ歌われているかを推定する技術(歌詞アラインメント)として、近年の楽曲で音響モデル(HMM)を適応させて精度向上を確認した。 歌声空間に基づく合成品質向上に関しては、合成に活用するための歌声分類を自動的に見出す前段階として、まずは無伴奏の歌声を対象に、そのスペクトル包絡を高精度に推定する基礎技術の開発に取り組んだ。その結果、効率良くかつ高い精度で分析できることを確認した。 多様な歌声を「どう合成したいのか」に関するインタラクション(歌声インタフェース)に関しては、その第一段階として、歌声が「何を歌っているか」と「どう歌われているのか」を同時に可視化する技術を実現した。具体的には、発話を伴う文字テキストにおいて、各文字の発声タイミングやその音響特徴量を把握できるように可視化する TextTimeline を開発した。TextTimeline では、テキスト表示を優先しながら音響特徴を文字の周辺に埋め込むが、その際に音声の時間軸をテキストと直交する方向(横書きテキストなら縦方向)に可視化することでオリジナルの時間軸を同時に保ち、詳細な音響特徴の可視化も可能にする。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では、歌声ビッグデータからの歌声空間の構築に基づく歌声合成品質の向上と、歌声空間の応用(インタフェース)を目的としている。従来、歌声合成には無伴奏の歌声が用いられていたが、伴奏等の背景音を伴う歌声も対象として、より多様な声質や歌い方に適用可能とする。そのために、混合音からの歌声特徴の高精度な抽出が必要となる。特に、楽曲中のどこに歌声があるのかを推定する歌声区間推定技術(VAD)と、歌声区間中どの音素がいつ歌われているかを推定する技術(歌詞アラインメント)の重要度は高く、その性能向上を確認できた。 一方、無伴奏の歌声を対象にそのスペクトル包絡を高精度に推定する基礎技術の開発に取り組んだが、伴奏を伴う歌声を対象とした歌い方特徴量の抽出(例えば、F0、音韻、音量の変化等)の性能向上にも、今後取り組む必要がある。 さらに応用展開として、多様な合成に特化した歌声インタフェース構築のために、従来の歌声可視化方法における問題を解決する新たな方法を実現した。従来、歌詞テキストの描画位置と音響特徴量の時間情報を保持しながら同時に可視化することができなかった。歌詞テキストの描画位置を変えずに読みやすさを重視すると音響特徴量の時間軸を非線形伸縮させる必要があり、逆に音響特徴量の時間軸を優先させると歌詞テキストの描画位置を音響特徴に合わせて移動させる必要があって読みにくかった。本研究では、発話を伴う文字テキストにおいて、各文字の発声タイミングやその音響特徴量を把握できるように可視化する新たな情報可視化技術を実現した。これは、歌声の多様性を比較しながら可視化する方法として、発展可能性があると考えている。
|
Strategy for Future Research Activity |
今後は、歌声空間に基づく分析精度及び合成品質向上のために、伴奏を伴う歌声の分析精度の向上に引き続き取り組み、自然性推定技術(ありがち度等)を歌声合成品質の向上につなげる予定である。これまでの歌声合成技術の多くは、無伴奏の歌声が用いられていたが、伴奏を伴う歌声を合成に使うことはなかった。また、一つの歌声データベース(音源)から一つの歌声を合成するか、複数の音源からそれぞれ合成した歌声をモーフィングすることが対象とされてきていて、音源以外の情報を合成時に活用することはなかった。それに対して、伴奏を伴う歌声も対象に歌声空間を構築することで、収録された音源の範囲を超えた場合に情報を補間して合成したり、合成される歌声の自然性を生成確率によって自動評価したりして、合成品質を向上させる。 また、歌声インタフェースについては、前年度取り組んだ歌声可視化技術に歌声合成・分類技術を含め、多様な歌声を合成できる歌声インタフェースを構築する。そこでは「何を合成するか」という従来の考え方を進め、多様な歌声を「どう合成するか」に焦点を当てた歌声合成インタフェースの構築を行う。歌声の多様性をコントロールするために、従来は音高などの歌声合成パラメータを操作したり、事前に登録された歌い方(例えば、ビブラートの速さなど)を選択したりしていたが、それらの操作と多様性の対応が不明瞭であった。そこで、歌い方のありがち度を考え、自分にとって典型的な表現かどうかどうかや、音楽ジャンルにおいて典型的かどうか等を可視化するインタラクションを考える。
|
Causes of Carryover |
参加が必要な国際会議(IEEE PacificVis)の開催が次年度であったため、次年度使用額が生じた。また、当該国際会議は国内開催であるため、別に調査・研究もしくは成果発表の外国旅費として使用する予定である。
|