• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2022 年度 実績報告書

独立性と振幅位相モデルに基づく音源分離の数理的深化及びマルチモーダル補聴器開発

研究課題

研究課題/領域番号 22H03652
配分区分補助金
研究機関香川高等専門学校

研究代表者

北村 大地  香川高等専門学校, 電気情報工学科, 講師 (40804745)

研究期間 (年度) 2022-04-01 – 2026-03-31
キーワード音源分離 / アレイ信号処理
研究実績の概要

本研究は,音響信号を対象とした音源分離技術の数理的深化と高性能化を目的とする.音源分離とは,複数の音源が混合した観測信号から混合前の個々の音源信号を推定する課題である.特に,マイクの配置や音源位置,部屋の残響や形状等の事前情報等を必要としない「ブラインド音源分離(BSS)」と呼ばれる技術は,実用化と多くの応用が期待されている.しかし,BSSは事前情報が与えられない問題であり,現在でも実用化困難なレベルの性能である.
本研究では,申請者が過去に提案したBSSフレームワークを大きく拡張することを目的としている.具体的には,これまで無視されてきた音の位相を表現する代数的・統計的数理モデルの構築と応用(数理的深化),深層学習に基づく様々な音の位相の教師有りモデリング(データ的拡張),ユーザと協働するインタラクティブ音源分離システムを搭載した補聴器の開発(応用的実装)の3つを主軸にした理論拡充に取り組む.
課題遂行1年目の令和4年度では,時間周波数領域における位相情報(位相スペクトログラム)の新しい表現形として提案されている「修正位相スペクトログラム」をBSSに活用することについて検討した.修正位相スペクトログラムは振幅スペクトログラムと同様に音源の時間周波数構造が(通常の位相スペクトログラムよりも)はっきりと現れるものであり,位相情報をBSSの音源モデルに組み込む直接的な方法と考えている.
しかしながら,修正位相スペクトログラム領域のBSSは信号の復元に分離音の位相スペクトログラムが必要となるため,これに対する解決策を考える必要がある.そこで令和4年度では,修正位相スペクトログラムの検討の前段階として,「時間微分複素スペクトログラム」を用いたBSSについて実験的な調査を実施した.調査結果として,時間微分複素スペクトログラムでも通常のBSSと同程度の性能が得られることを確認した.

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

本研究課題は,ブラインド音源分離(BSS)において,これまで積極的に考慮されることが無かった位相情報(各音源の位相に関する時間周波数構造,位相スペクトログラムと呼ぶ)の援用方法を模索することが主題となっている.当初の予定では「修正位相スペクトログラム」と呼ばれる新しい位相情報の表現系をBSSの音源モデルに導入する予定であった.その根拠として,修正位相スペクトログラムは振幅スペクトログラムと同様に,音源の時間周波数構造が(通常の位相スペクトログラムよりも)はっきりと現れるものであことが挙げられる.従って,本研究課題の主題である位相情報のBSSへの積極的な援用に対して直接的な方法と考えている.
しかし,修正位相スペクトログラムを直接BSSで分離することは困難が伴う.その理由として,仮に音源分離された結果の修正位相スペクトログラムが得られた際,これを時間信号に復元するには,音源毎の(分離された)瞬時周波数(位相の時間微分)が必要であるためである.令和4年度では,この困難への対処法を検討する前に.修正位相スペクトログラムよりも簡素な「時間微分複素スペクトログラム」の活用を検討した.複素時間微分スペクトログラムは修正位相スペクトログラムとも密接に関連している特徴量であるが,適切な時間周波数変換を施さなければ時間波形へと復元できないという特徴がある.令和4年度では,時間微分複素スペクトログラムを時間波形に復元できる条件を理論的に導出し,その条件を満たす変換を施したうえでBSSを適用した場合にどのような性能が得られるかについて調査した.
調査結果では,従前のBSSよりも人工的な歪みがやや少ないお源分離結果が得られることが明らかとなったが,これは我々が期待する程の大きな性能改善ではなかった.しかしながら,時間微分複素スペクトログラムそれ自体は興味深い性質があるため,今後も調査対象に加える.

今後の研究の推進方策

令和5年度以降では,当初の計画通り修正位相スペクトログラムの音源モデルへの活用について引き続き検討を進める.具体的には,修正位相スペクトログラムの直接的な活用は一度見直し,修正位相スペクトログラムの時間周波数構造の低ランク近似モデルと従前の振幅スペクトログラムの時間周波数構造の低ランク近似モデルを両方考慮するBSSについて検討する.このアプローチでは,令和4年度に取り組むことのできなかった(解決すべき)問題に直面することなく位相情報をBSSに援用できると考えられる.振幅と修正位相の両低ランク近似モデルをどのように融合するかについては様々な方法が考えられるため,その方法についても詳しく調査する予定である.
また,上記の継続的な調査と平行して,新たなアプローチとして深層学習を用いた分離系の直接推定について新たに検討する.これは,従来難しいと考えられてきた空間伝達系に関する学習・予測と個々の(混合前の)音源の構造の学習・予測を同時に行うアプローチであり,現時点では成功する方法であるかどうかは不明である.しかしながら,このようなアプローチについてBSSの観点から深く取り組まれた事例は無く,また結果的に振幅と位相の音源モデルを(空間伝達系と合わせて)学習していることとなる為,本研究課題で解決すべき主題とも密接に関連する考え方である.
令和5年度は上記の2つのアプローチを並行して進め,学術的な成果の創出と対外発表,アウトリーチ活動にも注力していくことを考えている.

  • 研究成果

    (11件)

すべて 2023 2022

すべて 雑誌論文 (2件) 学会発表 (9件) (うち国際学会 2件)

  • [雑誌論文] Deficient-basis-complementary rank-constrained spatial covariance matrix estimation based on multivariate generalized Gaussian distribution for blind speech extraction2022

    • 著者名/発表者名
      Kondo Yuto、Kubo Yuki、Takamune Norihiro、Kitamura Daichi、Saruwatari Hiroshi
    • 雑誌名

      EURASIP Journal on Advances in Signal Processing

      巻: 2022 ページ: -

    • DOI

      10.1186/s13634-022-00905-z

  • [雑誌論文] Supervised Audio Source Separation Based on Nonnegative Matrix Factorization with Cosine Similarity Penalty2022

    • 著者名/発表者名
      IWASE Yuta、KITAMURA Daichi
    • 雑誌名

      IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences

      巻: E105.A ページ: 906~913

    • DOI

      10.1587/transfun.2021EAP1149

  • [学会発表] Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and loudness using deep neural networks2023

    • 著者名/発表者名
      Shoya Kawaguchi and Daichi Kitamura
    • 学会等名
      RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing (NCSP 2023)
    • 国際学会
  • [学会発表] 多チャネル音源分離のための独立低ランク行列分析に対するスペクトログラム無矛盾性に基づく正則化項の設計2023

    • 著者名/発表者名
      三澤颯大, 高宗典玄, 矢田部浩平, 北村大地, 猿渡洋
    • 学会等名
      電子情報通信学会 技術研究報告, EA2022-105
  • [学会発表] DNN-based frequency-domain permutation solver for multichannel audio source separation2022

    • 著者名/発表者名
      Fumiya Hasuike, Daichi Kitamura, and Rui Watanabe
    • 学会等名
      Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2022)
    • 国際学会
  • [学会発表] 周波数双方向再帰に基づく深層パーミュテーション解決法2022

    • 著者名/発表者名
      蓮池郁也, 北村大地, 渡辺瑠伊, 川口翔也
    • 学会等名
      電子情報通信学会 第37回信号処理シンポジウム
  • [学会発表] 双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価2022

    • 著者名/発表者名
      川口翔也, 北村大地
    • 学会等名
      日本音響学会 2022年秋季研究発表会
  • [学会発表] 深層パーミュテーション解決法の汎化性能に関する実験的評価2022

    • 著者名/発表者名
      蓮池郁也, 北村大地, 渡辺瑠伊
    • 学会等名
      日本音響学会 2022年秋季研究発表会
  • [学会発表] 拡散性雑音をモデル化した独立低ランク行列分析における一般化固有値問題の解法に基づく高速化2022

    • 著者名/発表者名
      西田光輝, 高宗典玄, 北村大地, 猿渡洋, 池下林太郎, 中谷智広
    • 学会等名
      日本音響学会 2022年秋季研究発表会
  • [学会発表] 双方向RNNによるMFCC及びラウドネスからの振幅スペクトログラム予測2022

    • 著者名/発表者名
      川口翔也, 北村大地
    • 学会等名
      情報処理学会 第134回音楽情報科学研究会
  • [学会発表] 深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討2022

    • 著者名/発表者名
      蓮池郁也, 渡辺瑠伊, 北村大地
    • 学会等名
      電子情報通信学会 技術研究報告, EA2022-13

URL: 

公開日: 2023-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi