2019 年度実績報告書

人間の聴覚特性を考慮した残響・雑音環境下における音声信号処理の研究

研究課題

研究課題/領域番号	18J20059
研究機関	筑波大学
研究代表者	李莉筑波大学, システム情報工学研究科, 特別研究員(DC1)
研究期間 (年度)	2018-04-25 – 2021-03-31
キーワード	多チャネル音源分離 / 音声強調 / 多チャネル変分自己符号化器 / 独立ベクトル分析 / 深層学習 / 音響信号処理
研究実績の概要	本研究は，人間の聴覚上かつ機械の認識上の両方における高品質な音を複数の音が混ざっている混合音から分離するシステムの構築を最終的な目標としており，信号処理・機械学習・聴覚にまたがる数理モデルの構築と拡張を行う．研究実施2年目では，主に以下の研究を行った．（１）昨年度までに独立低ランク行列因子分解と呼ぶ多チャンネルブラインド音源分離手法に深層生成モデルを取り込んだ多チャネル変分自己符号化器法（MVAE法）と実用化のための高速アルゴリズム（fMVAE法）を提案し，少量データに限定して提案手法の有効性調査を行った．今年度には，データ量を増やし，より多種類かつ複雑な雑音・残響環境下において提案手法の有効性を調査した．その結果をまとめてNeural Computationに論文2本を投稿した．そのうち，1本は掲載済，もう1本は査読中である．また，電気音響研究会においても発表を行い，学生研究奨励賞を受賞した．（２）補助関数法を用いた独立ベクトル分析（AuxIVA）と呼ぶ多チャンネルブラインド音源分離手法はその高い分離性能，効率的なアルゴリズム，およびそれに基づくリアルタイムシステムが存在することで注目を集めている．しかし，従来のAuxIVAは，ブロックパミューテーションと呼ぶ低周波数と高周波数帯域において得られた分離信号がそれぞれ違う信号に属する問題が起こる．その問題を解決するために，ターゲット話者の空間情報を利用したGeometrically constrained AuxIVAを提案し，補助関数法とベクトルワイズ座標降下法を用いた更新アルゴリズムの導出に成功した．提案手法の有効性をシミュレーション実験で検証した．その結果をまとめた論文は，音響信号処理分野のトップカンファレンスであるICASSP 2020に採択されている．
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由当初の計画では，深層学習を用いた新たな手法の提案及び検証を今年度に実施することを予定していたが，今年度においてはMVAE法とfMVAE法に関する大規模な実験を行うことができて，その結果をまとめて投稿し，そのうちの1本が採択されるまでに至ったこと及び，AuxIVAを拡張した新たなアルゴリズムを提案でき，国際会議に採択されたことから，期待以上の進捗があったと言える．
今後の研究の推進方策	本年度では，実用システムに向けて，データ量を増やし，既知音源と未知音源の両方に対して提案したMVAE法とfMVAE法の有効性を確認した．しかし，これらの手法は収録し終えた混合信号を入力信号とし，リアルタイムの処理になっていない．従って，3年目はまずそれらの手法をベースとしたオンラインアルゴリズムの開発を行い，実用化のフィジビリティスタディを検証するために開発したアルゴリズムをNVIDA Jetson Nanoに実装し，検証実験を行う．また，本年度に提案したAuxIVAの拡張手法がバッチ処理アルゴリズムであるため，実用性を考慮したオンラインアルゴリズムの開発と検証が必要である．それらも3年目で実行することを予定している．最後に，3年を渡って進んできた非負値行列因子分解と深層学習を取り込んだ手法の研究を基に，それらの手法間の関係性を明らかにし，両方のモデルの利点を同時に生かして更なる音源分離性能を向上させることを考えている．

研究成果
(12件)

すべて 2020 2019

すべて雑誌論文 (2件) (うち査読あり 2件、オープンアクセス 1件) 学会発表 (10件) (うち国際学会 9件、招待講演 3件)

[雑誌論文] Supervised Determined Source Separation with Multichannel Variational Autoencoder2019
- 著者名/発表者名
  Hirokazu Kameoka, Li Li, Shota Inoue, Shoji Makino
- 雑誌名
  
  Neural Computation
  
  巻: 31 ページ: 1-24
- DOI
  10.1162/neco_a_01217
- 査読あり
[雑誌論文] Underdetermined Source Separation Based on Generalized Multichannel Variational Autoencoder2019
- 著者名/発表者名
  Shogo Seki, Hirokazu Kameoka, Li Li, Tomoki Toda, Kazuya Takeda
- 雑誌名
  
  IEEE Access
  
  巻: 7 ページ: 168104-168115
- DOI
  10.1109/ACCESS.2019.2954120
- 査読あり / オープンアクセス
[学会発表] Underdetermined multichannel speech enhancement using time-frequency-bin-wise switching beamformer and gated CNN-based time-frequency mask for reverberant environments2020
- 著者名/発表者名
  Riki Takahashi, Kouei Yamaoka, Li Li, Shoji Makino, Takeshi Yamada, Mitsuo Matsumoto
- 学会等名
  RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing (NCSP2020)
- 国際学会
[学会発表] Geometrically constrained independent vector analysis for directional speech enhancement2020
- 著者名/発表者名
  Li Li, Kazuhito Koishida
- 学会等名
  2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2020)
- 国際学会
[学会発表] Fast MVAE: Joint separation and classification of mixed sources based on multichannel variational autoencoder with auxiliary classifier2019
- 著者名/発表者名
  Li Li, Hirokazu Kameoka, Shoji Makino
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2019), pp. 546-550
- 国際学会
[学会発表] Joint separation and dereverberation of reverberant mixtures with multichannel variational autoencoder2019
- 著者名/発表者名
  Shota Inoue, Hirokazu Kameoka, Li Li, Shogo Seki, Shoji Makino
- 学会等名
  2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2019), pp. 56-60
- 国際学会
[学会発表] Voice activity detection under high levels of noise using gated convolutional neural networks2019
- 著者名/発表者名
  Li Li, Kouei Yamaoka, Yuki Koshino, Mitsuo Matsumoto, Shoji Makino
- 学会等名
  International Congress on Acoustics (ICA2019), pp.6988-6995
- 国際学会 / 招待講演
[学会発表] Generalized multichannel variational autoencoder for underdetermined source separation2019
- 著者名/発表者名
  Shogo Seki, Hirokazu Kameoka, Li Li, Tomoki Toda, Kazuya Takeda
- 学会等名
  The 2019 European Signal Processing Conference (EUSIPCO2019), pp. 1973-1977
- 国際学会
[学会発表] Joint separation, dereverberation and classification of mixed sources using multichannel variational autoencoder with auxiliary classifier2019
- 著者名/発表者名
  Shota Inoue, Li Li, Hirokazu Kameoka, Shoji Makino
- 学会等名
  International Congress on Acoustics (ICA2019), pp.6988-6995
- 国際学会 / 招待講演
[学会発表] CNN-based virtual microphone signal estimation for MPDR Beamforming in underdetermined situations2019
- 著者名/発表者名
  Kouei Yamaoka, Li Li, Nobutaka Ono, Shoji Makino, Takeshi Yamada
- 学会等名
  The 2019 European Signal Processing Conference (EUSIPCO2019), pp. 1049-1053
- 国際学会 / 招待講演
[学会発表] Improving singing aid system for laryngectomees with statistical voice conversion and VAE-SPACE2019
- 著者名/発表者名
  Li Li, Tomoki Toda, Kazuho Morikawa, Kazuhiro Kobayashi, Shoji Makino
- 学会等名
  20th International Society for Music Information Retrieval Conference (ISMIR2019), pp. 784-790
- 国際学会
[学会発表] 多チャンネル変分自己符号化器法による任意話者の音源分離2019
- 著者名/発表者名
  李莉，亀岡弘和，井上翔太，牧野昭二
- 学会等名
  電子情報通信学会技術研究報告, vol. 119, no. 334, EA2019-77, pp. 79-84

2019 年度 実績報告書

人間の聴覚特性を考慮した残響・雑音環境下における音声信号処理の研究

研究代表者

李 莉 筑波大学, システム情報工学研究科, 特別研究員(DC1)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Supervised Determined Source Separation with Multichannel Variational Autoencoder2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Underdetermined Source Separation Based on Generalized Multichannel Variational Autoencoder2019

著者名/発表者名

雑誌名

DOI

[学会発表] Underdetermined multichannel speech enhancement using time-frequency-bin-wise switching beamformer and gated CNN-based time-frequency mask for reverberant environments2020

著者名/発表者名

学会等名

[学会発表] Geometrically constrained independent vector analysis for directional speech enhancement2020

著者名/発表者名

学会等名

[学会発表] Fast MVAE: Joint separation and classification of mixed sources based on multichannel variational autoencoder with auxiliary classifier2019

著者名/発表者名

学会等名

[学会発表] Joint separation and dereverberation of reverberant mixtures with multichannel variational autoencoder2019

著者名/発表者名

学会等名

[学会発表] Voice activity detection under high levels of noise using gated convolutional neural networks2019

著者名/発表者名

学会等名

[学会発表] Generalized multichannel variational autoencoder for underdetermined source separation2019

著者名/発表者名

学会等名

[学会発表] Joint separation, dereverberation and classification of mixed sources using multichannel variational autoencoder with auxiliary classifier2019

著者名/発表者名

学会等名

[学会発表] CNN-based virtual microphone signal estimation for MPDR Beamforming in underdetermined situations2019

著者名/発表者名

学会等名

[学会発表] Improving singing aid system for laryngectomees with statistical voice conversion and VAE-SPACE2019

著者名/発表者名

学会等名

[学会発表] 多チャンネル変分自己符号化器法による任意話者の音源分離2019

著者名/発表者名

学会等名

2019 年度実績報告書

李莉筑波大学, システム情報工学研究科, 特別研究員(DC1)