2021 Fiscal Year Research-status Report
多チャネル音源分離のための独立非全結合型深層学習行列分析の提案
Project/Area Number |
20K11886
|
Research Institution | Tottori University |
Principal Investigator |
吉村 宏紀 鳥取大学, 工学研究科, 助教 (80316009)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | IDLMA / U-Net / ボーカル音源の抽出 / DNN |
Outline of Annual Research Achievements |
われわれの生活には様々な音が存在している.それらから任意の音だけを分離・抽出する技術が求められている.複数の音が鳴っている状況下で任意の音だけを取り出す技術のことを音源分離という.本稿では混合音源からボーカル音源の抽出することを目的とし,IDLMA の音源モデル推定ネットワークとして U-Net を適用することでボーカルの抽出精度が向上することを明らかにする. U-Net は Encoder 部と Decoder 部によって構成される U 字型のネットワークで一般的に表現される.U-Net による音源分離は入力信号として混合音源のパワースペクトログラムを使用する.教師信号には分離したい音源の真のパワースペクトログラムを使用する.また,ネットワークからは入力信号と同じサイズのマスク画像 が出力され,このマスク画像と入力信号の画像により要素毎の積を取ることで分離音源のパワースペクトログラムを作成でき, 混合音源の位相情報を用いて逆フーリエ変換を行うことで,分離音源を生成することが出来る. IDLMAで使用する音源モデルは二次元データである必要があるが,U-Net の出力は二次元データのマスク画像であり,それと入力信号の要素毎の積を取ることで分離音源のパワースペクトログラムを作成できる.また UーNet は単体で音源分離の能力もあるため,提案手法では IDLMA の音源モデル推定ネットワークとして適用した. 結果より従来 IDLMA は SDR が10.46dB,U-Net は17.97dB,提案手法は24.03dBと提案手法によってボーカルの分離精度を従来 IDLMA と U-Net の両者より向上させることができた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では,あらかじめ予備実験により提案手法の有効性を確認したことがおおむね順調に進展している理由と考える. Independent Deeply Learned Matrix Analysis (IDLMA)では音源分離を行う前に混合音源に含まれる特定の音源の振幅 (パワースペクトログラム) を推 定する Deep Neural Network(DNN) をあらかじめ学習させておく.例えばボーカルとベースが混ざった混合音源がある場合を仮定すると,混合音源からボーカルを強調して出力する DNN とベースを強調して出力する DNN の二つを学習しておくことで分離を行う.このあらかじめ学習させた DNN を用いて入力音源の音源モデルを推定し,音源モデルを元に分離フィルタを更新する.これを任意の回数繰り返すことで IDLMA は音源分離の精度向上を図ることを確認したことが.おおむね順調に進展している理由と考える.
|
Strategy for Future Research Activity |
Peak Filter を有する U-Net を音源モデル推定ネットワークに用いた IDLMA の評価を行う. U-Net は元来,医科学分野の画像セグメンテーションのために開発された手法である.音声や楽器音は倍音というものを含んでいる.例えば楽器で A4 の音を出したと仮定する.A4 の周波数は一般的に 440Hz とされている.実際に楽器から発せられる音は,440Hz の他に整数倍の周波数付近の音が出ている.これらの波のことは整数次倍音と呼ばれている.またその他の周波数帯に発せられている音より大きな振幅になる特徴を持つ.この特徴を U-Net に取り入れる. U-Net は U 字のような構造を持っている.この UーNet に整数次倍音のデータを効率よく抽出するために Peak Filter を導入する.Peak Filter は整数次倍音の振幅が大きくなるという特徴を利用する.このフィルタを U-Net のエンコード層側からデコード層側へ繋がる Skip connection 部分へ Peak Filter を組み込む.エンコード層側のデータが Peak Filter に入力し,出力データを一つ深いデコード層の出力と結合させる.これにより U-Net のエンコード層からデコード層にかけて失われていく倍音情報を,畳み込みが進む前のエンコード層側からデコード層へ流入させる. ここで,Peak Filter を有する U-Net を IDLMA の音源モデル推定ネットワークとして用いて,新たな提案手法として評価を行う.比較は従来 IDLMA,U-Net,提案手法 1(音源モデル推定ネットワークに U-Net を用いた IDLMA),最も浅い Skip connection に Peak Filter を組み込んだ U-Net,提案手法2の計5手法で行う.
|
Causes of Carryover |
次年度使用が生じた理由は,計算機購入金額が当初より低い金額で購入できたためである. また,計算機の購入を計画し,ディープニューラルネットワークの学習を加速させる.
|
Research Products
(1 results)