研究課題
本研究では,音楽音響信号から歌声が担う主旋律の楽譜を推定する歌声採譜技術を扱う.主旋律は多くの楽曲の印象に密接に関連しているため,歌声採譜は認識・生成の双方向歌声解析において重要な技術である.歌声の音高軌跡(F0軌跡)はビブラートやオーバシュート等の歌唱表現よって,楽譜に記述された音符の音高や発音時刻から大きく逸脱しているため,単純な方法では音楽的に不自然な音符列が推定されてしまう.また,従来法は事前推定したF0軌跡を時間・周波数方向に離散化して楽譜を推定しているが,事前推定による誤差伝播の問題や音符のオンセット情報が欠落したF0軌跡からは同音高の連続音符の境界が判定不能という問題があるため,音楽音響信号を直接扱える手法の構築が必要であった.そこで本研究では,深層ニューラルネットワークに基づく音響モデルと従来の統計モデルに基づく言語モデルを統合した音楽音響信号の生成モデルを開発した.提案モデルにおいて,言語モデルはセミマルコフモデル(semi-Markov model; SMM)で構成され,調に依存しながら音符系列が生成される過程を表現する.また,音響モデルは畳み込みリカレントニューラルネットワーク(convolutional recurrent neural network; CRNN)で構成され,音符に基づいて観測音楽音響信号が生成される過程を表現する.提案モデルは,言語モデルに基づく音符に関する文法的な知識とCRNN音響モデルの表現力の両方を活用しながら,ビタビアルゴリズムを用いて音楽信号から直接音符を推定する.実際の音楽音響信号と合成の歌声を用いた評価実験では,従来の歌声F0軌跡に対する歌声採譜手法よりも高い性能を達成した.また,音響モデルのみ用いて推定された楽譜よりも高い性能を達成したことから,言語モデルと音響モデルを統合することの有効性も確認した.
令和2年度が最終年度であるため、記入しない。
すべて 2021 2020
すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 1件) 学会発表 (12件) (うち国際学会 5件)
APSIPA Transactions on Signal and Information Processing
巻: 10 ページ: 1-13
10.1017/ATSIP.2021.4
EEE/ACM Transactions on Audio, Speech, and Language Processing
巻: 28 ページ: 1678-1691
10.1109/TASLP.2020.2996095