研究課題/領域番号 |
19J15255
|
研究機関 | 京都大学 |
研究代表者 |
錦見 亮 京都大学, 情報学研究科, 特別研究員(DC2)
|
研究期間 (年度) |
2019-04-25 – 2021-03-31
|
キーワード | 音楽情報処理 / 自動採譜 / 歌声採譜 |
研究実績の概要 |
本研究では,音楽音響信号から歌声が担う主旋律の楽譜を推定する歌声採譜技術を扱う.主旋律は多く楽曲の印象に密接に関連しているため,歌声採譜は認識・生成の双方向歌声解析において重要な技術である.従来は,音楽音響信号から歌声の連続的な音高軌跡(F0軌跡)や拍節構造(ビートや小節線)を予め推定し,音高軌跡を時間・周波数方向に離散化することで楽譜の推定が行われていた.そのため,事前推定された音高軌跡や拍節構造の推定精度が,音符推定の精度にも影響する問題があった.そこで,1) 音高軌跡を介さない歌声からの音符推定,2) 音符と拍節構造の同時推定,という観点から以下の研究を行った. (1) 注意機構を付きエンコーダ・デコーダモデルを用いて,歌声から直接メロディ音符を推定する手法を開発した.事前のF0軌跡推定を不要にしたことで,採譜への誤り伝搬を回避した.また,歌唱表現(ビブラートやこぶし等)によって生じるF0軌跡の複雑な音高ダイナミクスに対する精密なモデル化を不要にした.さらに,注意機構内で計算される注意重み行列(入力歌声と出力音符のアライメントに相当)に対して弱教師あり学習による制約を課すことで,少ないデータ量でモデルを学習可能にし音符推定精度を向上させた.しかし,拍節構造を推定しておらず,音符系列だけでは五線譜形式の楽譜へ変換できないという問題も残った. (2) 音符単位ではなくビート単位で楽譜を推定する注意機構を付きエンコーダ・デコーダモデルを開発した.これにより,モデルが音符と同時に小節線やビート位置を出力可能になり,五線譜形式へ変換可能になった.さらに,注意重みの重心が単調増加かつ一定間隔に並ぶよう制約をかけることで,注意重み行列によるアライメントが教師なし行える手法を開発した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
歌声の認識・生成統合モデルにおいて最も重要な技術である歌声採譜(認識)モデルについて,従来必要としていた歌声音高軌跡推定を介さず,歌声から直接楽譜を推定できるようになり,開発が順調に進捗しているため.また,本成果は主要な査読付き国際会議で発表されているため.
|
今後の研究の推進方策 |
歌声に対する楽譜認識モデルへ楽譜生成モデルを統合し,認識と生成の相補的依存関係を考慮することで楽譜推定性能の向上・高品質化を目指す.また、Webやスマートフォン向けのアプリケーションへと本技術を応用し,ユーザによる推定楽譜の誤り修正をもとに,認識・生成の両モデルを改良する.
|