従来の IDLMA は音源モデル推定ネットワークに全結合型 NN を用いている.IDLMA の音源モデル推定ネットワークには分離対象音源の振幅スペクトログラムを利用する必要がある.本研究では IDLMA の音源モデル推定ネットワークに,振幅スペクトログラムを出力可能な U-Net を用いることによって IDLMAの音源分離精度の向上を確認した.また U-Net に整数次倍音の振幅 (ピーク) を抽出するフィルタを組み込むことによって,U-Net 自身の精度向上も確認し,そのフィルタ付き U-Net を IDLMA に組み込むことで更に精度向上を図った. U-Net は元来,医科学分野の画像セグメンテーションのために開発された手法である.音声や楽器音は倍音というものを含んでいる.例えば楽器で A4 の音を出したと仮定する.A4 の周波数は一般的に 440Hz とされている.実際に楽器から発せられる音は,440Hzの他に整数倍の周波数付近の音が出ている.これらの波のことは整数次倍音と呼ばれている.またその他の周波数帯に発せられている音より大きな振幅になる特徴を持つ.この特徴を U-Net に取り入れた. IDLMA の音源モデル推定に U-Net を用いることで,精度向上が可能なことを確認した.また U-Net に整数次倍音による振幅のピークを抽出するフィルタを取り入れることで U-Net 自身の精度向上に寄与できることを確認した. 今後の課題としてU-Net+IDLMA のパーミュテーション問題解決を行うこと,音源種類ごとに倍音を学習するネットワークの構築などが考えられる.
|