2020 年度実績報告書

深層ベイズ学習に基づく歌声の認識と生成の統一理論

研究課題

研究課題/領域番号	19J15255
研究機関	京都大学
研究代表者	錦見亮京都大学, 情報学研究科, 特別研究員(DC2)
研究期間 (年度)	2019-04-25 – 2021-03-31
キーワード	音楽情報処理 / 自動採譜 / 歌声採譜
研究実績の概要	本研究では，音楽音響信号から歌声が担う主旋律の楽譜を推定する歌声採譜技術を扱う．主旋律は多くの楽曲の印象に密接に関連しているため，歌声採譜は認識・生成の双方向歌声解析において重要な技術である．歌声の音高軌跡（F0軌跡）はビブラートやオーバシュート等の歌唱表現よって，楽譜に記述された音符の音高や発音時刻から大きく逸脱しているため，単純な方法では音楽的に不自然な音符列が推定されてしまう．また，従来法は事前推定したF0軌跡を時間・周波数方向に離散化して楽譜を推定しているが，事前推定による誤差伝播の問題や音符のオンセット情報が欠落したF0軌跡からは同音高の連続音符の境界が判定不能という問題があるため，音楽音響信号を直接扱える手法の構築が必要であった．そこで本研究では，深層ニューラルネットワークに基づく音響モデルと従来の統計モデルに基づく言語モデルを統合した音楽音響信号の生成モデルを開発した．提案モデルにおいて，言語モデルはセミマルコフモデル（semi-Markov model; SMM）で構成され，調に依存しながら音符系列が生成される過程を表現する．また，音響モデルは畳み込みリカレントニューラルネットワーク（convolutional recurrent neural network; CRNN）で構成され，音符に基づいて観測音楽音響信号が生成される過程を表現する．提案モデルは，言語モデルに基づく音符に関する文法的な知識とCRNN音響モデルの表現力の両方を活用しながら，ビタビアルゴリズムを用いて音楽信号から直接音符を推定する．実際の音楽音響信号と合成の歌声を用いた評価実験では，従来の歌声F0軌跡に対する歌声採譜手法よりも高い性能を達成した．また，音響モデルのみ用いて推定された楽譜よりも高い性能を達成したことから，言語モデルと音響モデルを統合することの有効性も確認した．
現在までの達成度 (段落)	令和2年度が最終年度であるため、記入しない。
今後の研究の推進方策	令和2年度が最終年度であるため、記入しない。

研究成果
(14件)

すべて 2021 2020

すべて雑誌論文 (2件) (うち査読あり 2件、オープンアクセス 1件) 学会発表 (12件) (うち国際学会 5件)

[雑誌論文] Audio-to-Score Singing Transcription Based on a CRNN-HSMM Hybrid Model2021
- 著者名/発表者名
  Ryo Nishikimi, Eita Nakamura, Masataka Goto, Kazuyoshi Yoshii
- 雑誌名
  
  APSIPA Transactions on Signal and Information Processing
  
  巻: 10 ページ: 1-13
- DOI
  10.1017/ATSIP.2021.4
- 査読あり / オープンアクセス
[雑誌論文] Bayesian Singing Transcription Based on a Hierarchical Generative Model of Keys, Musical Notes, and F0 Trajectories2020
- 著者名/発表者名
  Ryo Nishikimi, Eita Nakamura, Masataka Goto, Katsutoshi Itoyama, Kazuyoshi Yoshii
- 雑誌名
  
  EEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 28 ページ: 1678-1691
- DOI
  10.1109/TASLP.2020.2996095
- 査読あり
[学会発表] Pitch-Timbre Disentanglement of Musical Instrument Sounds Based on VAE-Based Metric Learning2021
- 著者名/発表者名
  Keitaro Tanaka, Ryo Nishikimi, Yoshiaki Bando, Kazuyoshi Yoshii, Shigeo Morishima
- 学会等名
  IEEE International Conference on Acoustics, Speech, and Signal Processing
- 国際学会
[学会発表] Statistical Correction of Transcribed Melody Notes Based on Probabilistic Integration of a Music Language Model and a Transcription Error Model2021
- 著者名/発表者名
  Yuki Hiramatsu, Go Shibata, Ryo Nishikimi, Eita Nakamura, Kazuyoshi Yoshii
- 学会等名
  IEEE International Conference on Acoustics, Speech, and Signal Processing
- 国際学会
[学会発表] ピアノ採譜のための深層学習に基づく音価と声部の同時推定2021
- 著者名/発表者名
  平松祐紀, 柴田剛, 錦見亮, 中村栄太, 吉井和佳
- 学会等名
  情報処理学会第83回全国大会
[学会発表] 拍節構造の周期性に基づく深層ビート推定2021
- 著者名/発表者名
  大山偉永, 石塚崚斗, 錦見亮, 吉井和佳
- 学会等名
  情報処理学会第83回全国大会
[学会発表] ポピュラー音楽に対する難易度に応じた深層ピアノ編曲2021
- 著者名/発表者名
  寺尾萌夢, 石塚崚斗, 錦見亮, 吉井和佳
- 学会等名
  情報処理学会第83回全国大会
[学会発表] Tatum-Level Drum Transcription Based on a Convolutional Recurrent Neural Network with Language Mdoel-Based Regularized Training2020
- 著者名/発表者名
  Ryoto Ishizuka, Ryo Nishikimi, Eita Nakamura, Kazuyoshi Yoshii
- 学会等名
  2020 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference
- 国際学会
[学会発表] Music Structure Analysis Based on an LSTM-HSMM Hybrid Model2020
- 著者名/発表者名
  Go Shibata, Ryo Nishikimi, Kazuyoshi Yoshii
- 学会等名
  The 21th Annual Conference of the International Society for Music Information Retrieval
- 国際学会
[学会発表] Multi-Instrument Music Transcription Based on Deep Spherical Clustering of Spectrograms and Pitchgrams2020
- 著者名/発表者名
  Keitaro Tanaka, Takayuki Nakatsuka, Ryo Nishikimi, Kazuyoshi Yoshii, Shigeo Morishima
- 学会等名
  The 21th Annual Conference of the International Society for Music Information Retrieval
- 国際学会
[学会発表] 大局的構造に基づく正則化を用いた自己注意機構付き深層ドラム採譜2020
- 著者名/発表者名
  石塚崚斗, 錦見亮, 中村栄太, 吉井和佳
- 学会等名
  情報処理学会第129回音楽情報科学研究会
[学会発表] 事前学習済み言語モデルによる正則化を用いた深層ドラム採譜2020
- 著者名/発表者名
  石塚崚斗, 錦見亮, 中村栄太, 吉井和佳
- 学会等名
  情報処理学会第128回音楽情報科学研究会
[学会発表] LSTM-HSMMハイブリッドモデルに基づく音楽構造解析2020
- 著者名/発表者名
  柴田剛, 錦見亮, 中村栄太, 吉井和佳
- 学会等名
  情報処理学会第128回音楽情報科学研究会
[学会発表] スペクトログラムとピッチグラムの深層クラスタリングに基づく複数楽器パート採譜2020
- 著者名/発表者名
  田中啓太郎, 中塚貴之, 錦見亮, 吉井和佳, 森島繁生
- 学会等名
  情報処理学会第128回音楽情報科学研究会

2020 年度 実績報告書

深層ベイズ学習に基づく歌声の認識と生成の統一理論

研究代表者

錦見 亮 京都大学, 情報学研究科, 特別研究員(DC2)

研究成果

[雑誌論文] Audio-to-Score Singing Transcription Based on a CRNN-HSMM Hybrid Model2021

著者名/発表者名

雑誌名

DOI

[雑誌論文] Bayesian Singing Transcription Based on a Hierarchical Generative Model of Keys, Musical Notes, and F0 Trajectories2020

著者名/発表者名

雑誌名

DOI

[学会発表] Pitch-Timbre Disentanglement of Musical Instrument Sounds Based on VAE-Based Metric Learning2021

著者名/発表者名

学会等名

[学会発表] Statistical Correction of Transcribed Melody Notes Based on Probabilistic Integration of a Music Language Model and a Transcription Error Model2021

著者名/発表者名

学会等名

[学会発表] ピアノ採譜のための深層学習に基づく音価と声部の同時推定2021

著者名/発表者名

学会等名

[学会発表] 拍節構造の周期性に基づく深層ビート推定2021

著者名/発表者名

学会等名

[学会発表] ポピュラー音楽に対する難易度に応じた深層ピアノ編曲2021

著者名/発表者名

学会等名

[学会発表] Tatum-Level Drum Transcription Based on a Convolutional Recurrent Neural Network with Language Mdoel-Based Regularized Training2020

著者名/発表者名

学会等名

[学会発表] Music Structure Analysis Based on an LSTM-HSMM Hybrid Model2020

著者名/発表者名

学会等名

[学会発表] Multi-Instrument Music Transcription Based on Deep Spherical Clustering of Spectrograms and Pitchgrams2020

著者名/発表者名

学会等名

[学会発表] 大局的構造に基づく正則化を用いた自己注意機構付き深層ドラム採譜2020

著者名/発表者名

学会等名

[学会発表] 事前学習済み言語モデルによる正則化を用いた深層ドラム採譜2020

著者名/発表者名

学会等名

[学会発表] LSTM-HSMMハイブリッドモデルに基づく音楽構造解析2020

著者名/発表者名

学会等名

[学会発表] スペクトログラムとピッチグラムの深層クラスタリングに基づく複数楽器パート採譜2020

著者名/発表者名

学会等名

2020 年度実績報告書

錦見亮京都大学, 情報学研究科, 特別研究員(DC2)