2019 年度実績報告書

深層ベイズ学習に基づく歌声の認識と生成の統一理論

研究課題

研究課題/領域番号	19J15255
研究機関	京都大学
研究代表者	錦見亮京都大学, 情報学研究科, 特別研究員(DC2)
研究期間 (年度)	2019-04-25 – 2021-03-31
キーワード	音楽情報処理 / 自動採譜 / 歌声採譜
研究実績の概要	本研究では，音楽音響信号から歌声が担う主旋律の楽譜を推定する歌声採譜技術を扱う．主旋律は多く楽曲の印象に密接に関連しているため，歌声採譜は認識・生成の双方向歌声解析において重要な技術である．従来は，音楽音響信号から歌声の連続的な音高軌跡(F0軌跡)や拍節構造（ビートや小節線）を予め推定し，音高軌跡を時間・周波数方向に離散化することで楽譜の推定が行われていた．そのため，事前推定された音高軌跡や拍節構造の推定精度が，音符推定の精度にも影響する問題があった．そこで，1) 音高軌跡を介さない歌声からの音符推定，2) 音符と拍節構造の同時推定，という観点から以下の研究を行った． (1) 注意機構を付きエンコーダ・デコーダモデルを用いて，歌声から直接メロディ音符を推定する手法を開発した．事前のF0軌跡推定を不要にしたことで，採譜への誤り伝搬を回避した．また，歌唱表現（ビブラートやこぶし等）によって生じるF0軌跡の複雑な音高ダイナミクスに対する精密なモデル化を不要にした．さらに，注意機構内で計算される注意重み行列（入力歌声と出力音符のアライメントに相当）に対して弱教師あり学習による制約を課すことで，少ないデータ量でモデルを学習可能にし音符推定精度を向上させた．しかし，拍節構造を推定しておらず，音符系列だけでは五線譜形式の楽譜へ変換できないという問題も残った． (2) 音符単位ではなくビート単位で楽譜を推定する注意機構を付きエンコーダ・デコーダモデルを開発した．これにより，モデルが音符と同時に小節線やビート位置を出力可能になり，五線譜形式へ変換可能になった．さらに，注意重みの重心が単調増加かつ一定間隔に並ぶよう制約をかけることで，注意重み行列によるアライメントが教師なし行える手法を開発した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由歌声の認識・生成統合モデルにおいて最も重要な技術である歌声採譜（認識）モデルについて，従来必要としていた歌声音高軌跡推定を介さず，歌声から直接楽譜を推定できるようになり，開発が順調に進捗しているため．また，本成果は主要な査読付き国際会議で発表されているため．
今後の研究の推進方策	歌声に対する楽譜認識モデルへ楽譜生成モデルを統合し，認識と生成の相補的依存関係を考慮することで楽譜推定性能の向上・高品質化を目指す．また、Webやスマートフォン向けのアプリケーションへと本技術を応用し，ユーザによる推定楽譜の誤り修正をもとに，認識・生成の両モデルを改良する．

研究成果
(14件)

すべて 2020 2019

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (13件) (うち国際学会 7件)

[雑誌論文] 同質性・反復性・規則性を考慮した階層隠れセミマルコフモデルに基づく統計的音楽構造解析2020
- 著者名/発表者名
  柴田剛, 錦見亮, 中村栄太, 吉井和佳
- 雑誌名
  
  情報処理学会論文誌
  
  巻: 61 ページ: 757 - 767
- DOI
  10.20729/00204224
- 査読あり
[学会発表] 階層隠れセミマルコフモデルと深層学習に基づく楽曲セクションの境界推定とラベル付け2020
- 著者名/発表者名
  柴田剛, 錦見亮, 中村栄太, 吉井和佳
- 学会等名
  情報処理学会第82回全国大会
[学会発表] 深層クラスタリングを用いた任意楽器パートの自動採譜2020
- 著者名/発表者名
  田中啓太郎, 中塚貴之, 錦見亮, 吉井和佳, 森島繁生
- 学会等名
  情報処理学会第82回全国大会
[学会発表] 深層音響・言語モデルの統合に基づくドラム採譜2020
- 著者名/発表者名
  石塚崚斗, 上田瞬, 錦見亮, 中村栄太, 吉井和佳
- 学会等名
  情報処理学会第82回全国大会
[学会発表] End-to-End Melody Note Transcription Based on a Beat-Synchronous Attention Mechanism2019
- 著者名/発表者名
  Ryo Nishikimi, Eita Nakamura, Masataka Goto, Kazuyoshi Yoshii
- 学会等名
  IEEE Workshop on Applications of Signal Processing to Audio and Acoustics
- 国際学会
[学会発表] Automatic Singing Transcription Based on Encoder-Decoder Recurrent Neural Networks with a Weakly-Supervised Attention Mechanism2019
- 著者名/発表者名
  Ryo Nishikimi, Eita Nakamura, Satoru Fukayama, Masataka Goto, Kazuyoshi Yoshii
- 学会等名
  IEEE International Conference on Acoustics, Speech, and Signal Processing
- 国際学会
[学会発表] ビート同期注意機構に基づく歌声のリズム採譜2019
- 著者名/発表者名
  錦見亮, 中村栄太, 吉井和佳
- 学会等名
  情報処理学会第124回音楽情報科学研究会
[学会発表] Joint Singing Pitch Estimation and Voice Separation Based on Neural Harmonic Structure Renderer2019
- 著者名/発表者名
  Tomoyasu Nakano, Kazuyoshi Yoshii, Yiming Wu, Ryo Nishikimi, Kin Wah Edward Lin, Masataka Goto
- 学会等名
  IEEE Workshop on Applications of Signal Processing to Audio and Acoustics
- 国際学会
[学会発表] Statistical Music Structure Analysis Based on a Homogeneity-, and Repetitiveness-, and Regularity-Aware Hierarchical Hidden Semi-Markov Model2019
- 著者名/発表者名
  Go Shibata, Ryo Nishikimi, Eita Nakamura, Kazuyoshi Yoshii
- 学会等名
  The 20th Annual Conference of the International Society for Music Information Retrieval
- 国際学会
[学会発表] Unsupervised Melody Style Conversion2019
- 著者名/発表者名
  Eita Nakamura, Kentaro Shibata, Ryo Nishikimi, Kazuyoshi Yoshii
- 学会等名
  IEEE International Conference on Acoustics, Speech, and Signal Processing
- 国際学会
[学会発表] Joint Transcription of Lead, Bass, and Rhythm Guitars Based on a Factorial Hidden Semi-Markov Model2019
- 著者名/発表者名
  Kentaro Shibata, Ryo Nishikimi, Satoru Fukayama, Masataka Goto, Eita Nakamura, Katsutoshi Itoyama, Kazuyoshi Yoshii
- 学会等名
  IEEE International Conference on Acoustics, Speech, and Signal Processing
- 国際学会
[学会発表] Bayesian Drum Transcription Based on Noonegative Matrix Factor Decomposition with a Deep Score Prior2019
- 著者名/発表者名
  Shun Ueda, Kentaro Shibata, Yusuke Wada, Ryo Nishikimi, Eita Nakamura, Kazuyoshi Yoshii
- 学会等名
  IEEE International Conference on Acoustics, Speech, and Signal Processing
- 国際学会
[学会発表] 音楽言語モデルと採譜誤りモデルに基づく歌声採譜結果の訂正2019
- 著者名/発表者名
  平松祐紀, 柴田剛, 錦見亮, 中村栄太, 吉井和佳
- 学会等名
  情報処理学会第82回全国大会
[学会発表] 深層ドラム譜事前分布に基づく畳み込み非負値行列因子分解を用いたドラム採譜2019
- 著者名/発表者名
  上田瞬, 柴田健太郎, 和田雄介, 錦見亮, 中村栄太, 吉井和佳
- 学会等名
  情報処理学会第122回音楽情報科学研究会

2019 年度 実績報告書

深層ベイズ学習に基づく歌声の認識と生成の統一理論

研究代表者

錦見 亮 京都大学, 情報学研究科, 特別研究員(DC2)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] 同質性・反復性・規則性を考慮した階層隠れセミマルコフモデルに基づく統計的音楽構造解析2020

著者名/発表者名

雑誌名

DOI

[学会発表] 階層隠れセミマルコフモデルと深層学習に基づく楽曲セクションの境界推定とラベル付け2020

著者名/発表者名

学会等名

[学会発表] 深層クラスタリングを用いた任意楽器パートの自動採譜2020

著者名/発表者名

学会等名

[学会発表] 深層音響・言語モデルの統合に基づくドラム採譜2020

著者名/発表者名

学会等名

[学会発表] End-to-End Melody Note Transcription Based on a Beat-Synchronous Attention Mechanism2019

著者名/発表者名

学会等名

[学会発表] Automatic Singing Transcription Based on Encoder-Decoder Recurrent Neural Networks with a Weakly-Supervised Attention Mechanism2019

著者名/発表者名

学会等名

[学会発表] ビート同期注意機構に基づく歌声のリズム採譜2019

著者名/発表者名

学会等名

[学会発表] Joint Singing Pitch Estimation and Voice Separation Based on Neural Harmonic Structure Renderer2019

著者名/発表者名

学会等名

[学会発表] Statistical Music Structure Analysis Based on a Homogeneity-, and Repetitiveness-, and Regularity-Aware Hierarchical Hidden Semi-Markov Model2019

著者名/発表者名

学会等名

[学会発表] Unsupervised Melody Style Conversion2019

著者名/発表者名

学会等名

[学会発表] Joint Transcription of Lead, Bass, and Rhythm Guitars Based on a Factorial Hidden Semi-Markov Model2019

著者名/発表者名

学会等名

[学会発表] Bayesian Drum Transcription Based on Noonegative Matrix Factor Decomposition with a Deep Score Prior2019

著者名/発表者名

学会等名

[学会発表] 音楽言語モデルと採譜誤りモデルに基づく歌声採譜結果の訂正2019

著者名/発表者名

学会等名

[学会発表] 深層ドラム譜事前分布に基づく畳み込み非負値行列因子分解を用いたドラム採譜2019

著者名/発表者名

学会等名

2019 年度実績報告書

錦見亮京都大学, 情報学研究科, 特別研究員(DC2)