研究課題/領域番号 |
20K11886
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 鳥取大学 |
研究代表者 |
吉村 宏紀 鳥取大学, 工学研究科, 助教 (80316009)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
研究課題ステータス |
中途終了 (2022年度)
|
配分額 *注記 |
3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2022年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2021年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2020年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | IDLMA / U-net / 深層学習 / U-Net / ボーカル音源の抽出 / DNN / 音源分離 / Deep Neural Networks / 独立深層学習行列分析 IDLMA / SDR / ディープニューラルネットワーク / プロジェクションバック法 |
研究開始時の研究の概要 |
教師あり多チャネル音源分離手法である独立非全結合型深層学習行列分析 (IxDLMA)を提案する. IxDLMA は,従来のブラインド音源分離の独立低ランク行列分析と,近年発展している教師あり学習のディープニューラルネットワーク(DNN)を融合したアルゴリズムであり,独立成分分析を起源とする統計的独立性に基づく信号分離理論の正当な教師あり拡張手法である.本手法では,DNNを用いて音源の時間周波数構造をモデル化しつつ, 観測信号の空間的な混合モデルをブラインドに推定することができる.IxDLMA が従来の DNN に基づく多チャネル音源分離手法よりも高速かつ高精度な音源分離が可能であることを示す.
|
研究実績の概要 |
従来の IDLMA は音源モデル推定ネットワークに全結合型 NN を用いている.IDLMA の音源モデル推定ネットワークには分離対象音源の振幅スペクトログラムを利用する必要がある.本研究では IDLMA の音源モデル推定ネットワークに,振幅スペクトログラムを出力可能な U-Net を用いることによって IDLMAの音源分離精度の向上を確認した.また U-Net に整数次倍音の振幅 (ピーク) を抽出するフィルタを組み込むことによって,U-Net 自身の精度向上も確認し,そのフィルタ付き U-Net を IDLMA に組み込むことで更に精度向上を図った. U-Net は元来,医科学分野の画像セグメンテーションのために開発された手法である.音声や楽器音は倍音というものを含んでいる.例えば楽器で A4 の音を出したと仮定する.A4 の周波数は一般的に 440Hz とされている.実際に楽器から発せられる音は,440Hzの他に整数倍の周波数付近の音が出ている.これらの波のことは整数次倍音と呼ばれている.またその他の周波数帯に発せられている音より大きな振幅になる特徴を持つ.この特徴を U-Net に取り入れた. IDLMA の音源モデル推定に U-Net を用いることで,精度向上が可能なことを確認した.また U-Net に整数次倍音による振幅のピークを抽出するフィルタを取り入れることで U-Net 自身の精度向上に寄与できることを確認した. 今後の課題としてU-Net+IDLMA のパーミュテーション問題解決を行うこと,音源種類ごとに倍音を学習するネットワークの構築などが考えられる.
|