Project/Area Number |
19J15255
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 国内 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Kyoto University |
Principal Investigator |
錦見 亮 京都大学, 情報学研究科, 特別研究員(DC2)
|
Project Period (FY) |
2019-04-25 – 2021-03-31
|
Project Status |
Completed (Fiscal Year 2020)
|
Budget Amount *help |
¥2,100,000 (Direct Cost: ¥2,100,000)
Fiscal Year 2020: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2019: ¥1,100,000 (Direct Cost: ¥1,100,000)
|
Keywords | 音楽情報処理 / 自動採譜 / 歌声採譜 |
Outline of Research at the Start |
本研究では,人間が自身の個性を反映しながら「音楽を生成する過程」と「音楽を認識する過程」を統一的に記述するモデルを構成することで,表裏一体の関係にある音楽情報処理の認識タスク(個性を反映した歌声や楽曲の自動生成やスタイル変換)と生成タスク(音源分離や自動採譜,個性や歌唱表現の解析)とを双方の依存関係を考慮しながら同時に解決できる方法論を確立する.
|
Outline of Annual Research Achievements |
本研究では,音楽音響信号から歌声が担う主旋律の楽譜を推定する歌声採譜技術を扱う.主旋律は多くの楽曲の印象に密接に関連しているため,歌声採譜は認識・生成の双方向歌声解析において重要な技術である.歌声の音高軌跡(F0軌跡)はビブラートやオーバシュート等の歌唱表現よって,楽譜に記述された音符の音高や発音時刻から大きく逸脱しているため,単純な方法では音楽的に不自然な音符列が推定されてしまう.また,従来法は事前推定したF0軌跡を時間・周波数方向に離散化して楽譜を推定しているが,事前推定による誤差伝播の問題や音符のオンセット情報が欠落したF0軌跡からは同音高の連続音符の境界が判定不能という問題があるため,音楽音響信号を直接扱える手法の構築が必要であった. そこで本研究では,深層ニューラルネットワークに基づく音響モデルと従来の統計モデルに基づく言語モデルを統合した音楽音響信号の生成モデルを開発した.提案モデルにおいて,言語モデルはセミマルコフモデル(semi-Markov model; SMM)で構成され,調に依存しながら音符系列が生成される過程を表現する.また,音響モデルは畳み込みリカレントニューラルネットワーク(convolutional recurrent neural network; CRNN)で構成され,音符に基づいて観測音楽音響信号が生成される過程を表現する.提案モデルは,言語モデルに基づく音符に関する文法的な知識とCRNN音響モデルの表現力の両方を活用しながら,ビタビアルゴリズムを用いて音楽信号から直接音符を推定する.実際の音楽音響信号と合成の歌声を用いた評価実験では,従来の歌声F0軌跡に対する歌声採譜手法よりも高い性能を達成した.また,音響モデルのみ用いて推定された楽譜よりも高い性能を達成したことから,言語モデルと音響モデルを統合することの有効性も確認した.
|
Research Progress Status |
令和2年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和2年度が最終年度であるため、記入しない。
|