• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Research-status Report

Unification of Deep Learning and Generalized Mathematical Model for Independence-Based Audio Source Separation

Research Project

Project/Area Number 19K20306
Research InstitutionKagawa National College of Technology

Principal Investigator

北村 大地  香川高等専門学校, 電気情報工学科, 助教 (40804745)

Project Period (FY) 2019-04-01 – 2022-03-31
Keywords音源分離 / 独立成分分析 / 独立低ランク行列分析 / 生成モデル / 確率的信号処理 / 音響信号処理
Outline of Annual Research Achievements

本研究課題は,音源分離技術に関する数理的・実用的拡張を目的としている.音源分離とは,複数の音源が混合した観測信号のみから混合前の個々の音源信号を推定する逆問題であり,多くの応用が期待されている.
具体的には,音響信号を対象とした音源分離の数理的深化と高性能化を目的として,申請者が過去に提案した手法である「独立低ランク行列分析(ILRMA)」を数理的に一般化した新しい音源分離フレームワークを確立する.これは「音源間の統計的独立性と各音源の構造に関する制約条件」という新たな考え方であり,いかに適切な音源構造制約を与えるかについて,数理的・データ的観点から発展させる.具体的には「一般化ガウス分布生成モデル」と「音源モデルplug-and-playな最適化法」の理論解析と確立,「深層学習に基づく音源教師あり手法」への発展,「ユーザの介入を組み合わせたインタラクティブ音源分離手法」の開発の3点を目標とする.
1年目である令和2年度は,従来より申請者が提案している「ILRMAの確率的生成モデルの一般化」と「音源モデルのplug-and-playが可能な最適化法」について,当初の計画通り取り組んだ.従来のILRMAの音源生成モデルである複素ガウス分布を,サブガウス分布を含んだ一般化複素ガウス分布へと一般化し,それらの妥当性について実験的に検証した.特に,サブガウス分布を仮定したILRMAは,従来のILRMAよりも遥かに高精度な音源分離結果が得られることを示した.また,調波打楽器音分離(HPSS)と呼ばれる有名なアルゴリズムを音源モデルとして解釈し,plug-and-playな最適化手法と融合した「時間周波数マスクに基づくブラインド音源分離(TFMBSS)」を新たに提案し,調波音と打楽器音の音源分離においては,従来のILRMAの性能を大幅に上回る分離が実現できることを示した.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本研究課題では,1年目で「一般化ガウス分布生成モデル」と「音源モデルのplug-and-playが可能な最適化法」の2点に関して理論解析と確立を行い,実環境における音源分離実験を通して有効性を確認する予定であった.これらの内容は計画通り実施され,特に前者の検討課題においては,1本のジャーナル論文が採択されている.後者については,年度の後半から取り組みをはじめた.その結果,調波打楽器音分離手法を音源モデルと解釈してplug-and-play最適化音源分離手法(TFMBSS)に導入することで,確かな性能が得られることを確認した.さらに,一度TFMBSSに音源モデル(HPSS)を導入して分離した後に,もう一度HPSSで音源モデルをリファイン,という処理を反復する新たなアルゴリズムを提案し,より高精度な音源分離へとつながる可能性を示した.これらの結果は,年度末開催の国内会議へ投稿し,発表ができた段階である.今後は国際的な発表やジャーナルへの投稿を目指して,さらに理論拡張と発展をさせていく予定である.

Strategy for Future Research Activity

本研究では,「音源間の独立性+各音源の構造に関する何らかの制約」という強力な提案手法を新しい音源分離フレームワークと捉え,(1)確率的生成モデルの一般化と音源構造制約の数理的深化,(2)学習データと深層学習を用いた最適な音源構造制約の自動獲得と適応学習,(3)ユーザから得られる支援情報を活用したインタラクティブ音源分離の開発の3つを主軸にした理論拡充に取り組むことを目指している.
今後の研究の推進方策として,2年目では,1年目で得た成果を「深層学習に基づく音源教師あり手法」へと発展させ,さらに学習済みの深層ネットワークを観測信号に適応させる転移学習についても検討する.これは,手に入る学習データ量が不十分な音源に対しても頑健に分離することを目的としている.この深層学習に基づく音源モデルの構築においては,1年目の研究で得られた「サブガウス分布を確率的生成モデルに用いたモデリングが音源分離に適している」という知見を活かすために,深層学習を多層かつ非線形な最尤推定と捉えて,学習時のロス関数にサブガウス分布から導かれるダイバージェンスを用いることを検討している.また,TFMBSSと深層学習を融合させる手法についても,理論的妥当性を考慮しながら検討を進めていく予定である.
最終年度の3年目では,インタラクティブ音源分離手法の検討及び開発として,超小型カメラと補聴器を組み合わせた高精度なリアルタイム音声強調システムの構築等を目指している.

  • Research Products

    (32 results)

All 2020 2019

All Journal Article (4 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 3 results,  Open Access: 4 results) Presentation (26 results) (of which Int'l Joint Research: 8 results) Patent(Industrial Property Rights) (2 results)

  • [Journal Article] Independent Low-Rank Matrix Analysis Based on Time-Variant Sub-Gaussian Source Model for Determined Blind Source Separation2020

    • Author(s)
      Mogami Shinichi、Takamune Norihiro、Kitamura Daichi、Saruwatari Hiroshi、Takahashi Yu、Kondo Kazunobu、Ono Nobutaka
    • Journal Title

      IEEE/ACM Transactions on Audio, Speech, and Language Processing

      Volume: 28 Pages: 503~518

    • DOI

      10.1109/TASLP.2019.2959257

    • Peer Reviewed / Open Access
  • [Journal Article] Multichannel Non-Negative Matrix Factorization Using Banded Spatial Covariance Matrices in Wavenumber Domain2020

    • Author(s)
      Mitsufuji Yuki、Uhlich Stefan、Takamune Norihiro、Kitamura Daichi、Koyama Shoichi、Saruwatari Hiroshi
    • Journal Title

      IEEE/ACM Transactions on Audio, Speech, and Language Processing

      Volume: 28 Pages: 49~60

    • DOI

      10.1109/TASLP.2019.2948770

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Journal Article] Independent Deeply Learned Matrix Analysis for Determined Audio Source Separation2019

    • Author(s)
      Makishima Naoki、Mogami Shinichi、Takamune Norihiro、Kitamura Daichi、Sumino Hayato、Takamichi Shinnosuke、Saruwatari Hiroshi、Ono Nobutaka
    • Journal Title

      IEEE/ACM Transactions on Audio, Speech, and Language Processing

      Volume: 27 Pages: 1601~1615

    • DOI

      10.1109/TASLP.2019.2925450

    • Peer Reviewed / Open Access
  • [Journal Article] Nonnegative matrix factorization based on complex generative model2019

    • Author(s)
      Kitamura Daichi
    • Journal Title

      Acoustical Science and Technology

      Volume: 40 Pages: 155~161

    • DOI

      10.1250/ast.40.155

    • Open Access
  • [Presentation] Regularized fast multichannel nonnegative matrix factorization with ILRMA-based prior distribution of joint-diagonalization process2020

    • Author(s)
      Keigo Kamo, Yuki Kubo, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari, Yu Takahashi, and Kazunobu Kondo
    • Organizer
      IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020)
    • Int'l Joint Research
  • [Presentation] Convergence-guaranteed independent positive semidefinite tensor analysis based on Student's t distribution2020

    • Author(s)
      Tatsuki Kondo, Kanta Fukushige, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari, Rintaro Ikeshita, and Tomohiro Nakatani
    • Organizer
      IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020)
    • Int'l Joint Research
  • [Presentation] Multichannel hearing-aid system based on basis-shared semi-supervised independent low-rank matrix analysis2020

    • Author(s)
      Masakazu Une, Yuki Kubo, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari, and Shoji Makino
    • Organizer
      Forum Acusticum
    • Int'l Joint Research
  • [Presentation] コサイン類似度罰則条件付き半教師あり非負値行列因子分解2020

    • Author(s)
      岩瀬佑太, 北村大地
    • Organizer
      日本音響学会 2020年春季研究発表会
  • [Presentation] 調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離2020

    • Author(s)
      大藪宗一郎, 北村大地, 矢田部浩平
    • Organizer
      日本音響学会 2020年春季研究発表会
  • [Presentation] ユーザーからの補助情報を用いるインタラクティブ音源分離システム2020

    • Author(s)
      中野将生, 北村大地
    • Organizer
      日本音響学会 2020年春季研究発表会
  • [Presentation] 音源分離のための深層学習に基づく音響帯域拡張2020

    • Author(s)
      渡辺瑠伊, 北村大地
    • Organizer
      日本音響学会 2020年春季研究発表会
  • [Presentation] 局所時間周波数構造に基づく深層パーミュテーション解決法2020

    • Author(s)
      山地修平, 北村大地
    • Organizer
      日本音響学会 2020年春季研究発表会
  • [Presentation] 独立深層学習行列分析におけるマイクロホン毎及び音源毎の座標降下法 に基づく分離行列更新法の周波数別自動選択法2020

    • Author(s)
      牧島直輝, 高宗典玄, 北村大地, 猿渡洋, 高橋祐, 近藤多伸
    • Organizer
      日本音響学会 2020年春季研究発表会
  • [Presentation] ランク制約付き空間共分散行列推定法に基づく拡散性雑音存在下でのブラインド複数方向性音源分離2020

    • Author(s)
      久保優騎, 高宗典玄, 北村大地, 猿渡洋
    • Organizer
      日本音響学会 2020年春季研究発表会
  • [Presentation] 三重対角型周波数共分散行列を用いた独立半正定値テンソル分析によるブラインド音源分離2020

    • Author(s)
      近藤樹, 高宗典玄, 北村大地, 猿渡洋, 池下林太郎, 中谷智広
    • Organizer
      日本音響学会 2020年春季研究発表会
  • [Presentation] 同時対角化行列の事前分布を用いた高速多チャネル非負値行列因子分解によるブラインド音源分離2020

    • Author(s)
      加茂佳吾, 久保優騎, 高宗典玄, 北村大地, 猿渡洋, 高橋祐, 近藤多伸
    • Organizer
      日本音響学会 2020年春季研究発表会
  • [Presentation] 基底共有型半教師あり独立低ランク行列分析に基づく多チャネル補聴器システム2020

    • Author(s)
      宇根昌和, 久保優騎, 高宗典玄, 北村大地, 猿渡洋, 牧野 昭二
    • Organizer
      日本音響学会 2020年春季研究発表会
  • [Presentation] HVA:調波ベクトル分析2020

    • Author(s)
      矢田部浩平, 北村大地
    • Organizer
      日本音響学会 2020年春季研究発表会
  • [Presentation] 一般化Gauss分布に基づく同時対角化制約付き多チャネルNMFを用いたブラインド音源分離2020

    • Author(s)
      加茂佳吾, 久保優騎, 高宗典玄, 北村大地, 猿渡洋, 高橋祐, 近藤多伸
    • Organizer
      IEICE Technical Report
  • [Presentation] ブラインド音声抽出のための多変量複素一般化Gauss分布に基づくランク制約付き空間共分散行列推定法及びその高速化2020

    • Author(s)
      久保優騎, 高宗典玄, 北村大地, 猿渡洋
    • Organizer
      IEICE Technical Report
  • [Presentation] Robust demixing filter update algorithm based on microphone-wise coordinate descent for independent deeply learned matrix analysis2019

    • Author(s)
      Naoki Makishima, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari, Yu Takahashi, and Kazunobu Kondo
    • Organizer
      Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2019)
    • Int'l Joint Research
  • [Presentation] Acceleration of rank-constrained spatial covariance matrix estimation for blind speech extraction2019

    • Author(s)
      Yuki Kubo, Norihiro Takamune, Daichi Kitamura, and Hiroshi Saruwatari
    • Organizer
      Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2019)
    • Int'l Joint Research
  • [Presentation] Evaluation of multichannel hearing aid system using rank-constrained spatial covariance matrix estimation2019

    • Author(s)
      Masakazu Une, Yuki Kubo, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari, and Shoji Makino
    • Organizer
      Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2019)
    • Int'l Joint Research
  • [Presentation] Column-wise update algorithm for independent deeply learned matrix analysis2019

    • Author(s)
      Naoki Makishima, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari, Yu Takahashi, and Kazunobu Kondo
    • Organizer
      International Congress on Acoustics (ICA 2019)
    • Int'l Joint Research
  • [Presentation] Efficient full-rank spatial covariance estimation using independent low-rank matrix analysis for blind source separation2019

    • Author(s)
      Yuki Kubo, Norihiro Takamune, Daichi Kitamura, and Hiroshi Saruwatari
    • Organizer
      European Signal Processing Conference (EUSIPCO 2019)
    • Int'l Joint Research
  • [Presentation] 多変量複素Student’s t分布に基づくFastMNMF を用いたブラインド音源分離2019

    • Author(s)
      加茂佳吾, 久保優騎, 高宗典玄, 北村大地, 猿渡洋, 高橋祐, 近藤多伸
    • Organizer
      IEICE Technical Report
  • [Presentation] 独立深層学習行列分析におけるマイクロホン毎の座標降下法に基づく分離行列更新2019

    • Author(s)
      牧島直輝, 高宗典玄, 北村大地, 猿渡洋, 高橋祐, 近藤多伸
    • Organizer
      日本音響学会 2019年秋季研究発表会
  • [Presentation] 多変量複素Student's t分布に基づく独立半正定値テンソル分析によるブラインド音源分離2019

    • Author(s)
      近藤樹, 高宗典玄, 北村大地, 猿渡洋, 池下林太郎, 中谷智広
    • Organizer
      日本音響学会 2019年秋季研究発表会
  • [Presentation] ランク制約付き空間共分散モデル推定法の逆行列展開による高速化2019

    • Author(s)
      久保優騎, 高宗典玄, 北村大地, 猿渡洋
    • Organizer
      日本音響学会 2019年秋季研究発表会
  • [Presentation] ランク制約付き空間共分散モデル推定を用いた多チャネル補聴器システムの評価2019

    • Author(s)
      宇根昌和, 久保優騎, 高宗典玄, 北村大地, 猿渡洋, 牧野昭二
    • Organizer
      日本音響学会 2019年秋季研究発表会
  • [Patent(Industrial Property Rights)] 信号処理装置2020

    • Inventor(s)
      北村大地,渡辺瑠伊
    • Industrial Property Rights Holder
      北村大地,渡辺瑠伊
    • Industrial Property Rights Type
      特許
    • Industrial Property Number
      特願2020-33347
  • [Patent(Industrial Property Rights)] ランク制約付き空間共分散行列の高速推定法2019

    • Inventor(s)
      猿渡洋,久保優騎,高宗典玄,北村だいいt
    • Industrial Property Rights Holder
      猿渡洋,久保優騎,高宗典玄,北村だいいt
    • Industrial Property Rights Type
      特許
    • Industrial Property Number
      特願2019-220584

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi