• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Research-status Report

多チャネル音源分離のための独立非全結合型深層学習行列分析の提案

Research Project

Project/Area Number 20K11886
Research InstitutionTottori University

Principal Investigator

吉村 宏紀  鳥取大学, 工学研究科, 助教 (80316009)

Project Period (FY) 2020-04-01 – 2023-03-31
Keywords音源分離 / Deep Neural Networks / 独立深層学習行列分析 IDLMA / SDR
Outline of Annual Research Achievements

音源分離には真の音源から収録マイクまでの空間情報 (空間モデル) を推定し分離を行う手法と,真の音源の特徴である音色や強さ,長さなどの音源情報 (音源モデル) によって真の音源の推定し分離を行う手法がある.近年,空間モデルとディープニューラルネットワーク (Deep Neural Networks: DNN) によって推定される音源モデル,両方を融合させた手法として独立深層学習行列分析 (Independent Deeply Learned Matrix Analysis: IDLMA) が提案され ている.これは分離対象音源の学習データが得られるという条件下で,「女声」や「ベース」等の分離対象と同じ属性の音源を事前に学習しておくことで高精度な分離を可能にする手法である.
しかし,従来の IDLMA の DNN の学習の際に利用している音楽データは 50 曲分のみである.また,音源の 1 フレームに対して1パターンでの音量倍率でしか学習されていない.さらに,隠れ層の層数 4 層,各層のユニット数 1024 で固定し,窓長を変化させて比較のみを行っている.そこで 本稿では,従来のIDLMA で比較が行われていなかった学習データ数による精度の比較,および層数・ユニット数での精度の比較を行い,IDLMAでの分離に最適なDNNを調査・検討することを初年度の目的とした.
その結果,基準となるDNNと比較して学習データ と隠れ層を増やすほど精度が向上する傾向が見られた.しかし,精度の向上はSignal-to-Distortion Ratio(SDR)で2dB程度であったことから,一般的な全結合のDNNではハイパーパラメータを多少変えても,SDRは大きく変わらないことがわかった.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本研究では,基本的なところから調べるところから始めているので現段階では概ね順調に進んでいると考えている.以下にその理由を述べる.
IDLMA の元論文で検討されている DNN が隠れ層4層,隠れ層のユニット数が1024で隠れ層と出力層のユニットに ReLu を用いた全結合型NNのみになっており,データ数も音楽データセット 50 曲分を学習しているのみである.STFT の窓長を変更しての比較は行われているが,学習データ数,DNNの層数,ユニット数を変更しての比較を行われていない.そこで本研究では IDLMA の DNN の学習データ数,層数,ユニット数を変更して比較を行い,音源分離精度へ与える影響を調査することを狙いとしたことである.
上記の調査実験は,IDLMAの元論文を様々な角度からハイパーパラメータを変化させるという単純な実験であり,次年度における特徴的なDNNを設計する上での基本的な情報を得るために,必要不可欠なものとなる.
実験結果から次年度は一般的な全結合のDNNではハイパーパラメータを多少変えても,SDRは大きく変わらないことがわかった.次年度では,音声の特徴を容易に獲得できるニューラルネットワークを使う優位性を示すことが重要であることを示す.

Strategy for Future Research Activity

1年目の実験結果から一般的な全結合のDNNではハイパーパラメータを多少変えても,音源分離におけるSDRは大きく変わらないことがわかった.音声の特徴を容易に獲得できるニューラルネットワークを使う優位性を示すことが重要であることを示す.特に,文献を精査し様々な結合のディープニューラルネットワーク(DNN)を用いてIDLMAを改良することを考える.しかし,音声の特徴を獲得するDNNを考案しても音源分離におけるSDRがどれほど向上するかは保証されない.
対応策として,ニューラルネットワークにアテンションを適応することも考案する.アテンションをニューラルネットワークに付け加えることで,音声や楽器などで消えてしまった周波数領域を補完することができると考える.アテンションを付け加えることは単純ではないが,最初の研究計画が行き詰まりを見せたときにこの方向に方針転換を図る予定である.

Causes of Carryover

コロナの影響で出張旅費を使うことができなかったため未使用額が生じた.
研究(ディープニューラルネットワーク:DNN)で計算する計算機を増やし,学習時間の短縮を図り,その結果,学習量を多くすることで音響特徴量によりあったニューラルネットワークの獲得を狙う.

  • Research Products

    (1 results)

All 2020

All Presentation (1 results)

  • [Presentation] DNN を利用した音源モデルが IDLMA の性能に与える影響の調査・検討2020

    • Author(s)
      衛藤 吉彦 ,吉村 宏紀,西山 正志,岩井 儀雄
    • Organizer
      2020 年度 (第 71 回) 電気・情報関連学会中国支部連合大会

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi