独立性と振幅位相モデルに基づく音源分離の数理的深化及びマルチモーダル補聴器開発

研究課題

研究課題/領域番号	23K24908
補助金の研究課題番号	22H03652 (2022-2023)
研究種目	基盤研究(B)
配分区分	基金 (2024) 補助金 (2022-2023)
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	香川高等専門学校
研究代表者	北村大地香川高等専門学校, 電気情報工学科, 講師 (40804745)
研究期間 (年度)	2022-04-01 – 2026-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	17,290千円 (直接経費: 13,300千円、間接経費: 3,990千円) 2025年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円) 2024年度: 2,990千円 (直接経費: 2,300千円、間接経費: 690千円) 2023年度: 5,850千円 (直接経費: 4,500千円、間接経費: 1,350千円) 2022年度: 5,980千円 (直接経費: 4,600千円、間接経費: 1,380千円)
キーワード	音源分離 / 補聴器 / 深層学習 / アレイ信号処理 / 独立成分分析 / 音源モデル / 位相
研究開始時の研究の概要	音源分離とは，複数の音源が混合した観測信号から混合前の個々の音源信号を推定する課題である．特に，マイクの配置や音源位置，部屋の残響や形状等の事前情報等を必要としない「ブラインド音源分離（BSS）」と呼ばれる技術は，実用化と多くの応用が期待されている．本課題では，現在主流のBSSフレームワークに対し，音の位相を表現する代数的・統計的数理モデルの構築と応用（数理的深化），深層学習に基づく教師有りモデリング（データ的拡張），ユーザと協働するシステムを搭載した補聴器の開発（応用的実装）の3つを主軸にした理論拡充に取り組む．
研究実績の概要	本研究は，音響信号を対象とした音源分離技術の数理的深化と高性能化を目的とする．音源分離とは，複数の音源が混合した観測信号から混合前の個々の音源信号を推定する課題である．特に，マイクの配置や音源位置，部屋の残響や形状等の事前情報等を必要としない「ブラインド音源分離（BSS）」と呼ばれる技術は，実用化と多くの応用が期待されている．しかし，BSSは事前情報が与えられない問題であり，現在でも実用化困難なレベルの性能である．本研究では，申請者が過去に提案したBSSフレームワークを大きく拡張することを目的としている．具体的には，これまで無視されてきた音の位相を表現する代数的・統計的数理モデルの構築と応用（数理的深化），深層学習に基づく様々な音の位相の教師有りモデリング（データ的拡張），ユーザと協働するインタラクティブ音源分離システムを搭載した補聴器の開発（応用的実装）の3つを主軸にした理論拡充に取り組む．課題遂行1年目の令和4年度では，修正位相スペクトログラムの検討の前段階として，「時間微分複素スペクトログラム」を用いたBSSについて実験的な調査を実施した．調査結果として，時間微分複素スペクトログラムでも通常のBSSと同程度の性能が得られることを確認したが，期待されたほどの性能向上は確認できなかった．課題遂行2年目の令和5年度では，引き続き時間微分複素スペクトログラムを用いる音源モデルについて検討を進めるとともに，BSSで着目すべき観測信号の時間区間を選別する方法で性能向上を目指した．より高い性能を発揮することのできる時間区間のみをBSSに与えることを想定したアプローチであり，その時間区間の選別には深層ニューラルネットワークを用いる．令和5年度の内容では深層学習モデルの構築とその精度の検証，また時間区間選別モデルが理想的な性能を発揮した際のBSSの性能向上について確認した．
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由本研究課題は，ブラインド音源分離（BSS）において，これまで積極的に考慮されることが無かった位相情報（各音源の位相に関する時間周波数構造，位相スペクトログラムと呼ぶ）の援用方法を模索することが主題となっている．当初の予定では「修正位相スペクトログラム」と呼ばれる新しい位相情報の表現系をBSSの音源モデルに導入する予定であった．その根拠として，修正位相スペクトログラムは振幅スペクトログラムと同様に，音源の時間周波数構造が（通常の位相スペクトログラムよりも）はっきりと現れるものであることが挙げられる．従って，本研究課題の主題である位相情報のBSSへの積極的な援用に対して直接的な方法と考えている．しかし，修正位相スペクトログラムを直接BSSで分離することは困難が伴う．その理由として，仮に音源分離された結果の修正位相スペクトログラムが得られた際，これを時間信号に復元するには，音源毎の（分離された）瞬時周波数（位相の時間微分）が必要であるためである．令和4年度では，この困難への対処法を検討する前に．修正位相スペクトログラムよりも簡素な「時間微分複素スペクトログラム」の活用を検討した．従前のBSSよりも人工的な歪みがやや少ない音源分離結果が得られることが明らかとなったが，これは我々が期待する程の大きな性能改善ではなかった．令和5年度では，時間微分複素スペクトログラムのモデル援用を一度保留し，よりシンプルな方法で性能向上を目指すアルゴリズムとして，BSSに与えるべき観測信号の時間区間を深層学習モデルで選別する方法について検討に時間を費やした．この手法については一定の効果が認められ，また興味深い現象も観測できたが，当初予定していた時間微分複素スペクトログラムに基づく音源モデルの構築についてはいまだ検討中であり，令和6年度に検討すべき課題へと持ち越しとなったため，当初の予定よりやや遅れている．
今後の研究の推進方策	令和6年度以降では，令和5年度に実施できなかった時間微分スペクトログラムの音源モデルへの活用の検討を進める．具体的には，時間微分スペクトログラムの時間周波数構造の低ランク近似モデルと，従前の振幅スペクトログラムの時間周波数構造の低ランク近似モデルを両方考慮する音源モデルについて検討する．また，令和5年度に実施した深層学習に基づく観測信号の時間区間の選別アルゴリズムとBSSを融合させた手法の結果を取りまとめ，対外発表を予定している．さらに，BSSで推定された分離系に含まれる誤差を深層学習で補正する方法についても検討する．これは令和4年度に少しだけ着手したアルゴリズムであるが，当初予定していた位相構造援用の研究進捗の遅れを考慮し，改めて新しいアプローチとしてBSSの性能向上を狙うものである．従って，令和6年度は上記の3つのアプローチを並行して進め，学術的な成果の創出と対外発表，アウトリーチ活動にも注力していくことを考えている．

報告書

(2件)

2023 実績報告書
2022 実績報告書

研究成果
(26件)

すべて 2024 2023 2022

すべて雑誌論文 (4件) (うち査読あり 3件、オープンアクセス 3件) 学会発表 (22件) (うち国際学会 4件、招待講演 1件)

[雑誌論文] Amplitude Spectrogram Prediction from Mel-Frequency Cepstrum Coefficients Using Deep Neural Networks2023
- 著者名/発表者名
  Kawaguchi Shoya、Kitamura Daichi
- 雑誌名
  
  信号処理
  
  巻: 27 号: 6 ページ: 207-211
- DOI
  10.2299/jsp.27.207
- ISSN
  1342-6230, 1880-1013
- 年月日
  2023-11-01
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] PoP-IDLMA: Product-of-Prior Independent Deeply Learned Matrix Analysis for Multichannel Music Source Separation2023
- 著者名/発表者名
  Takuya Hasumi, Tomohiko Nakamura, Norihiro Takamune, Hiroshi Saruwatari, Daichi Kitamura, Yu Takahashi, and Kazunobu Kondo
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 31 ページ: 2680-2694
- DOI
  10.1109/taslp.2023.3293044
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Supervised Audio Source Separation Based on Nonnegative Matrix Factorization with Cosine Similarity Penalty2022
- 著者名/発表者名
  IWASE Yuta、KITAMURA Daichi
- 雑誌名
  
  IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences
  
  巻: E105.A 号: 6 ページ: 906-913
- DOI
  10.1587/transfun.2021EAP1149
- NAID
  130008126154
- ISSN
  0916-8508, 1745-1337
- 年月日
  2022-06-01
- 関連する報告書
  2022 実績報告書
[雑誌論文] Deficient-basis-complementary rank-constrained spatial covariance matrix estimation based on multivariate generalized Gaussian distribution for blind speech extraction2022
- 著者名/発表者名
  Yuto Kondo, Yuki Kubo, Norihiro Takamune , Daichi Kitamura, and Hiroshi Saruwatari
- 雑誌名
  
  EURASIP Journal on Advances in Signal Processing
  
  巻: 88(2022) 号: 1
- DOI
  10.1186/s13634-022-00905-z
- 関連する報告書
  2022 実績報告書
- 査読あり / オープンアクセス
[学会発表] 周波数領域優決定音源分離の分離性能とスペクトログラム無矛盾性の度合いの関係の理論的考察と実験的評価2024
- 著者名/発表者名
  児島孝明, 池下林太郎, 高宗典玄, 北村大地, 猿渡洋, 中谷智広
- 学会等名
  日本音響学会2024年春季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] 非負値テンソル因子分解に基づく分散マイクアレイを用いたスポットフォーミング2024
- 著者名/発表者名
  綾野翔馬, 李莉, 関翔悟, 北村大地
- 学会等名
  日本音響学会2024年春季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] 独立低ランク行列分析における反復射影法の高速化・安定化アルゴリズム2024
- 著者名/発表者名
  石川悠人, 大久保拓哉, 高宗典玄, 北村大地, 中村友彦, 猿渡洋, 高橋祐, 近藤多伸
- 学会等名
  日本音響学会2024年春季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] 空間正則化付き独立低ランク行列分析におけるベクトルワイズ座標降下法の高速化・安定化アルゴリズム2024
- 著者名/発表者名
  石川悠人, 大久保拓哉, 高宗典玄, 中村友彦, 北村大地, 猿渡洋, 高橋祐, 近藤多伸
- 学会等名
  電子情報通信学会技術研究報告
- 関連する報告書
  2023 実績報告書
[学会発表] Blind source separation using independent low-rank matrix analysis with spectrogram-consistency regularization2023
- 著者名/発表者名
  Sota Misawa, Norihiro Takamune, Kohei Yatabe, Daichi Kitamura, and Hiroshi Saruwatari
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2023)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] NoisyILRMA: Diffuse-noise-aware independent low-rank matrix analysis for fast blind source extraction2023
- 著者名/発表者名
  Koki Nishida, Norihiro Takamune, Rintaro Ikeshita, Daichi Kitamura, Hiroshi Saruwatari, and Tomohiro Nakatani
- 学会等名
  European Signal Processing Conference (EUSIPCO 2023)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] スペクトログラム無矛盾性に基づく観測信号依存正則化付き独立低ランク行列分析を用いた多チャネルブラインド音源分離2023
- 著者名/発表者名
  児島孝明, 高宗典玄, 三澤颯大, 北村大地, 猿渡洋
- 学会等名
  電子情報通信学会技術研究報告
- 関連する報告書
  2023 実績報告書
[学会発表] 正則化非負値行列因子分解によるスペクトログラム補完2023
- 著者名/発表者名
  和気佑弥, 北村大地
- 学会等名
  第26回日本音響学会関西支部若手研究者交流研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] 単一話者の発話区間率とブラインド音源分離性能の関係の調査2023
- 著者名/発表者名
  鈴木慶, 北村大地
- 学会等名
  第26回日本音響学会関西支部若手研究者交流研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] ブラインド音源分離のための単一話者発話区間検出2023
- 著者名/発表者名
  加藤大輝, 川口翔也, 北村大地
- 学会等名
  第26回日本音響学会関西支部若手研究者交流研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] 時間周波数表現の冗長度による独立成分分析の信号分離性能の変化2023
- 著者名/発表者名
  樋口裕季, 山田宏樹, 矢田部浩平, 北村大地
- 学会等名
  日本音響学会2023年秋季研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] 時間微分スペクトログラムを用いたブラインド音源分離2023
- 著者名/発表者名
  綾野翔馬, 北村大地, 矢田部浩平
- 学会等名
  令和5年度電気・電子・情報関係学会四国支部連合大会
- 関連する報告書
  2023 実績報告書
[学会発表] 音源分離技術の基礎と応用～音源分離チョットワカルになるための手引き～2023
- 著者名/発表者名
  北村大地, 中村友彦
- 学会等名
  情報処理学会第137回音楽情報科学研究会
- 関連する報告書
  2023 実績報告書
- 招待講演
[学会発表] Amplitude spectrogram prediction from mel-frequency cepstrum coefficients and loudness using deep neural networks2023
- 著者名/発表者名
  Shoya Kawaguchi and Daichi Kitamura
- 学会等名
  RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing (NCSP 2023)
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] 多チャネル音源分離のための独立低ランク行列分析に対するスペクトログラム無矛盾性に基づく正則化項の設計2023
- 著者名/発表者名
  三澤颯大, 高宗典玄, 矢田部浩平, 北村大地, 猿渡洋
- 学会等名
  電子情報通信学会技術研究報告, EA2022-105
- 関連する報告書
  2022 実績報告書
[学会発表] DNN-based frequency-domain permutation solver for multichannel audio source separation2022
- 著者名/発表者名
  Fumiya Hasuike, Daichi Kitamura, and Rui Watanabe
- 学会等名
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2022)
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] 周波数双方向再帰に基づく深層パーミュテーション解決法2022
- 著者名/発表者名
  蓮池郁也, 北村大地, 渡辺瑠伊, 川口翔也
- 学会等名
  電子情報通信学会第37回信号処理シンポジウム
- 関連する報告書
  2022 実績報告書
[学会発表] 双方向LSTMによるラウドネス及びMFCCからの振幅スペクトログラム予測と評価2022
- 著者名/発表者名
  川口翔也, 北村大地
- 学会等名
  日本音響学会 2022年秋季研究発表会
- 関連する報告書
  2022 実績報告書
[学会発表] 深層パーミュテーション解決法の汎化性能に関する実験的評価2022
- 著者名/発表者名
  蓮池郁也, 北村大地, 渡辺瑠伊
- 学会等名
  日本音響学会 2022年秋季研究発表会
- 関連する報告書
  2022 実績報告書
[学会発表] 拡散性雑音をモデル化した独立低ランク行列分析における一般化固有値問題の解法に基づく高速化2022
- 著者名/発表者名
  西田光輝, 高宗典玄, 北村大地, 猿渡洋, 池下林太郎, 中谷智広
- 学会等名
  日本音響学会 2022年秋季研究発表会
- 関連する報告書
  2022 実績報告書
[学会発表] 双方向RNNによるMFCC及びラウドネスからの振幅スペクトログラム予測2022
- 著者名/発表者名
  川口翔也, 北村大地
- 学会等名
  情報処理学会第134回音楽情報科学研究会
- 関連する報告書
  2022 実績報告書
[学会発表] 深層ニューラルネットワークに基づくパーミュテーション解決法の基礎的検討2022
- 著者名/発表者名
  蓮池郁也, 渡辺瑠伊, 北村大地
- 学会等名
  電子情報通信学会技術研究報告, EA2022-13
- 関連する報告書
  2022 実績報告書

独立性と振幅位相モデルに基づく音源分離の数理的深化及びマルチモーダル補聴器開発

研究代表者

北村 大地 香川高等専門学校, 電気情報工学科, 講師 (40804745)

17,290千円 (直接経費: 13,300千円、間接経費: 3,990千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Amplitude Spectrogram Prediction from Mel-Frequency Cepstrum Coefficients Using Deep Neural Networks2023

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] PoP-IDLMA: Product-of-Prior Independent Deeply Learned Matrix Analysis for Multichannel Music Source Separation2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Supervised Audio Source Separation Based on Nonnegative Matrix Factorization with Cosine Similarity Penalty2022

著者名/発表者名

雑誌名

DOI

NAID

ISSN

年月日

関連する報告書

[雑誌論文] Deficient-basis-complementary rank-constrained spatial covariance matrix estimation based on multivariate generalized Gaussian distribution for blind speech extraction2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] 周波数領域優決定音源分離の分離性能とスペクトログラム無矛盾性の度合いの関係の理論的考察と実験的評価2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 非負値テンソル因子分解に基づく分散マイクアレイを用いたスポットフォーミング2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 独立低ランク行列分析における反復射影法の高速化・安定化アルゴリズム2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 空間正則化付き独立低ランク行列分析におけるベクトルワイズ座標降下法の高速化・安定化アルゴリズム2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Blind source separation using independent low-rank matrix analysis with spectrogram-consistency regularization2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] NoisyILRMA: Diffuse-noise-aware independent low-rank matrix analysis for fast blind source extraction2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] スペクトログラム無矛盾性に基づく観測信号依存正則化付き独立低ランク行列分析を用いた多チャネルブラインド音源分離2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 正則化非負値行列因子分解によるスペクトログラム補完2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 単一話者の発話区間率とブラインド音源分離性能の関係の調査2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] ブラインド音源分離のための単一話者発話区間検出2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 時間周波数表現の冗長度による独立成分分析の信号分離性能の変化2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 時間微分スペクトログラムを用いたブラインド音源分離2023

著者名/発表者名

学会等名

北村大地香川高等専門学校, 電気情報工学科, 講師 (40804745)