• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Annual Research Report

人間の聴覚特性を考慮した残響・雑音環境下における音声信号処理の研究

Research Project

Project/Area Number 18J20059
Research InstitutionUniversity of Tsukuba

Principal Investigator

李 莉  筑波大学, システム情報工学研究科, 特別研究員(DC1)

Project Period (FY) 2018-04-25 – 2021-03-31
Keywords多チャネル音源分離 / 音声強調 / 多チャネル変分自己符号化器 / 独立ベクトル分析 / 深層学習 / 音響信号処理
Outline of Annual Research Achievements

本研究は,人間の聴覚上かつ機械の認識上の両方における高品質な音を複数の音が混ざっている混合音から分離するシステムの構築を最終的な目標としており,信号処理・機械学習・聴覚にまたがる数理モデルの構築と拡張を行う.
研究実施2年目では,主に以下の研究を行った.
(1)昨年度までに独立低ランク行列因子分解と呼ぶ多チャンネルブラインド音源分離手法に深層生成モデルを取り込んだ多チャネル変分自己符号化器法(MVAE法)と実用化のための高速アルゴリズム(fMVAE法)を提案し,少量データに限定して提案手法の有効性調査を行った.今年度には,データ量を増やし,より多種類かつ複雑な雑音・残響環境下において提案手法の有効性を調査した.その結果をまとめてNeural Computationに論文2本を投稿した.そのうち,1本は掲載済,もう1本は査読中である.また,電気音響研究会においても発表を行い,学生研究奨励賞を受賞した.
(2)補助関数法を用いた独立ベクトル分析(AuxIVA)と呼ぶ多チャンネルブラインド音源分離手法はその高い分離性能,効率的なアルゴリズム,およびそれに基づくリアルタイムシステムが存在することで注目を集めている.しかし,従来のAuxIVAは,ブロックパミューテーションと呼ぶ低周波数と高周波数帯域において得られた分離信号がそれぞれ違う信号に属する問題が起こる.その問題を解決するために,ターゲット話者の空間情報を利用したGeometrically constrained AuxIVAを提案し,補助関数法とベクトルワイズ座標降下法を用いた更新アルゴリズムの導出に成功した.提案手法の有効性をシミュレーション実験で検証した.その結果をまとめた論文は,音響信号処理分野のトップカンファレンスであるICASSP 2020に採択されている.

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

当初の計画では,深層学習を用いた新たな手法の提案及び検証を今年度に実施することを予定していたが,今年度においてはMVAE法とfMVAE法に関する大規模な実験を行うことができて,その結果をまとめて投稿し,そのうちの1本が採択されるまでに至ったこと及び,AuxIVAを拡張した新たなアルゴリズムを提案でき,国際会議に採択されたことから,期待以上の進捗があったと言える.

Strategy for Future Research Activity

本年度では,実用システムに向けて,データ量を増やし,既知音源と未知音源の両方に対して提案したMVAE法とfMVAE法の有効性を確認した.しかし,これらの手法は収録し終えた混合信号を入力信号とし,リアルタイムの処理になっていない.従って,3年目はまずそれらの手法をベースとしたオンラインアルゴリズムの開発を行い,実用化のフィジビリティスタディを検証するために開発したアルゴリズムをNVIDA Jetson Nanoに実装し,検証実験を行う.
また,本年度に提案したAuxIVAの拡張手法がバッチ処理アルゴリズムであるため,実用性を考慮したオンラインアルゴリズムの開発と検証が必要である.それらも3年目で実行することを予定している.
最後に,3年を渡って進んできた非負値行列因子分解と深層学習を取り込んだ手法の研究を基に,それらの手法間の関係性を明らかにし,両方のモデルの利点を同時に生かして更なる音源分離性能を向上させることを考えている.

  • Research Products

    (12 results)

All 2020 2019

All Journal Article (2 results) (of which Peer Reviewed: 2 results,  Open Access: 1 results) Presentation (10 results) (of which Int'l Joint Research: 9 results,  Invited: 3 results)

  • [Journal Article] Supervised Determined Source Separation with Multichannel Variational Autoencoder2019

    • Author(s)
      Hirokazu Kameoka, Li Li, Shota Inoue, Shoji Makino
    • Journal Title

      Neural Computation

      Volume: 31 Pages: 1-24

    • DOI

      10.1162/neco_a_01217

    • Peer Reviewed
  • [Journal Article] Underdetermined Source Separation Based on Generalized Multichannel Variational Autoencoder2019

    • Author(s)
      Shogo Seki, Hirokazu Kameoka, Li Li, Tomoki Toda, Kazuya Takeda
    • Journal Title

      IEEE Access

      Volume: 7 Pages: 168104-168115

    • DOI

      10.1109/ACCESS.2019.2954120

    • Peer Reviewed / Open Access
  • [Presentation] Underdetermined multichannel speech enhancement using time-frequency-bin-wise switching beamformer and gated CNN-based time-frequency mask for reverberant environments2020

    • Author(s)
      Riki Takahashi, Kouei Yamaoka, Li Li, Shoji Makino, Takeshi Yamada, Mitsuo Matsumoto
    • Organizer
      RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing (NCSP2020)
    • Int'l Joint Research
  • [Presentation] Geometrically constrained independent vector analysis for directional speech enhancement2020

    • Author(s)
      Li Li, Kazuhito Koishida
    • Organizer
      2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2020)
    • Int'l Joint Research
  • [Presentation] Fast MVAE: Joint separation and classification of mixed sources based on multichannel variational autoencoder with auxiliary classifier2019

    • Author(s)
      Li Li, Hirokazu Kameoka, Shoji Makino
    • Organizer
      2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2019), pp. 546-550
    • Int'l Joint Research
  • [Presentation] Joint separation and dereverberation of reverberant mixtures with multichannel variational autoencoder2019

    • Author(s)
      Shota Inoue, Hirokazu Kameoka, Li Li, Shogo Seki, Shoji Makino
    • Organizer
      2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2019), pp. 56-60
    • Int'l Joint Research
  • [Presentation] Voice activity detection under high levels of noise using gated convolutional neural networks2019

    • Author(s)
      Li Li, Kouei Yamaoka, Yuki Koshino, Mitsuo Matsumoto, Shoji Makino
    • Organizer
      International Congress on Acoustics (ICA2019), pp.6988-6995
    • Int'l Joint Research / Invited
  • [Presentation] Generalized multichannel variational autoencoder for underdetermined source separation2019

    • Author(s)
      Shogo Seki, Hirokazu Kameoka, Li Li, Tomoki Toda, Kazuya Takeda
    • Organizer
      The 2019 European Signal Processing Conference (EUSIPCO2019), pp. 1973-1977
    • Int'l Joint Research
  • [Presentation] Joint separation, dereverberation and classification of mixed sources using multichannel variational autoencoder with auxiliary classifier2019

    • Author(s)
      Shota Inoue, Li Li, Hirokazu Kameoka, Shoji Makino
    • Organizer
      International Congress on Acoustics (ICA2019), pp.6988-6995
    • Int'l Joint Research / Invited
  • [Presentation] CNN-based virtual microphone signal estimation for MPDR Beamforming in underdetermined situations2019

    • Author(s)
      Kouei Yamaoka, Li Li, Nobutaka Ono, Shoji Makino, Takeshi Yamada
    • Organizer
      The 2019 European Signal Processing Conference (EUSIPCO2019), pp. 1049-1053
    • Int'l Joint Research / Invited
  • [Presentation] Improving singing aid system for laryngectomees with statistical voice conversion and VAE-SPACE2019

    • Author(s)
      Li Li, Tomoki Toda, Kazuho Morikawa, Kazuhiro Kobayashi, Shoji Makino
    • Organizer
      20th International Society for Music Information Retrieval Conference (ISMIR2019), pp. 784-790
    • Int'l Joint Research
  • [Presentation] 多チャンネル変分自己符号化器法による任意話者の音源分離2019

    • Author(s)
      李莉,亀岡弘和,井上翔太,牧野昭二
    • Organizer
      電子情報通信学会技術研究報告, vol. 119, no. 334, EA2019-77, pp. 79-84

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi