• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2018 年度 実績報告書

人間の聴覚特性を考慮した残響・雑音環境下における音声信号処理の研究

研究課題

研究課題/領域番号 18J20059
研究機関筑波大学

研究代表者

李 莉  筑波大学, システム情報工学研究科, 特別研究員(DC1)

研究期間 (年度) 2018-04-25 – 2021-03-31
キーワード多チャネル音源分離 / モノラル音声強調 / 非負値行列因子分解 / 多チャネル変分自己符号化器
研究実績の概要

本研究は,音が混ざっている混合音から人間の聴覚上かつ機械の認識上の両方における高品質な音を分離するシステムの構築を最終的な目標としており,信号処理・機械学習・聴覚にまたがる数理モデルの構築と拡張を行う.このような音源分離技術は,補聴器や音声入力システムなど人と人,人と機械間のコミュニケーションをサポートする広い範囲での応用が可能である.その他,新しい数理モデルの構築と拡張は学術的にも極めて重要である.研究実施1年目では,主に以下の研究を行った.
(1)マルチチャネル信号に対して,従来の独立低ランク行列分析と呼ぶブラインド音源分離手法に深層生成モデルのスペクトログラムに対する強力なモデリング能力を取り込んだ音源分離・音源クラス識別を同時に解決するアプローチを新たに提案し,その分離性能を実験により検証した.更に,実用化のために高速アルゴリズムを提案し,提案法が高速で動作できることを実験で確認した.本提案手法に関しては,音響信号処理分野のトップカンファレンスであるICASSP 2019に採択されている.また,日本音響学会においても発表を行った.
(2)モノラル音声強調に強力であることが知られている非負値行列因子分解(NMF)と呼ぶ枠組を拡張した識別的NMFモデルに対して,研究担当者が昨年度までに新たな基底学習アルゴリズムを開発し,音声を対象とした実験で提案法の有効性を検証した.今年度では,多種類の音響信号に対する提案法の有効性を検証するため,音楽データを用いて追加実験を行った.その結果をまとめた論文をIEEE/ACM Transactions on Audio, Speech and Language Processingに投稿した.また,本研究に関しては,IEEE Signal Processing Society Tokyo Joint Chapterより,学生賞を受賞している.

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

当初の計画では,1年目においては非負値行列因子分解(NMF)をベースとなる手法に関する理論拡張及び実験による検討を行い,2年目から深層学習の強力な関数表現力を取り込んだ手法に関する検討を予定しているが,実施1年目ではNMFをベースとなる手法の結果をまとめた論文をジャーナル投稿した上に,2年目に予定している内容を実施し,新たな手法の提案に成功し,国内会議において発表を行い,国際会議にも採択されている.

今後の研究の推進方策

本年度で提案した音源分離手法は,音源分離性能が極めて高い一方で,従来の瞬時混合モデルを用いて定式化された手法と同様に残響に対する頑健性を欠けている.特に高速アルゴリズムは残響が長い環境下において性能が劣化してしまう現象を実験的に確認している.従って,2年目はまず提案手法が残響環境に対して頑健に動作できるように,残響を考慮した音源モデルを提案手法に取り組んで,その有効性を確認する.また,実用化可能な手法へと改良することを目標として,既知音源のみに対応可能な音源モデルを未知音源にも高精度な推定を行えるようなモデルへ拡張し,データ量を増やして有効性を検証する実験を行う.
識別的非負値行列因子分解のアルゴルズムと深層学習を取り込んだ提案手法の研究を進んた上に,その両方の知見を持ち,識別的モデルと深層学習を用いたモデルの利点を同時に生かして更なる音源分離性能を向上させることを考えている.

  • 研究成果

    (11件)

すべて 2019 2018

すべて 学会発表 (11件) (うち国際学会 5件、 招待講演 2件)

  • [学会発表] Fast MVAE: Joint separation and classification of mixed sources based on multichannel variational autoencoder with auxiliary classifier2019

    • 著者名/発表者名
      Li Li, Hirokazu Kameoka, and Shoji Makino
    • 学会等名
      2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2019), pp. 546-550
    • 国際学会
  • [学会発表] Joint separation and dereverberation of reverberant mixtures with multichannel variational autoencoder2019

    • 著者名/発表者名
      Shota Inoue, Hirokazu Kameoka, Li Li, Shogo Seki, and Shoji Makino
    • 学会等名
      2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2019), pp. 96-100
    • 国際学会
  • [学会発表] Voice activity detection under high levels of noise using gated convolutional neural networks2019

    • 著者名/発表者名
      Li Li, Kouei Yamaoka, Yuki Koshino, Mitsuo Matsumoto, and Shoji Makino
    • 学会等名
      International Congress on Acoustics (ICA2019)
    • 国際学会 / 招待講演
  • [学会発表] Joint separation, dereverberation and classification of mixed sources using multichannel variational autoencoder with auxiliary classifier2019

    • 著者名/発表者名
      Shota Inoue, Li Li, Hirokazu Kameoka, and Shoji Makino
    • 学会等名
      International Congress on Acoustics (ICA2019)
    • 国際学会 / 招待講演
  • [学会発表] 音源クラス識別器つき多チャンネル変分自己符号化器を用いた高速セミブラインド音源分離2019

    • 著者名/発表者名
      李莉,亀岡弘和,牧野昭二
    • 学会等名
      日本音響学会2019年春季研究発表会,1-6-10,pp. 201-204
  • [学会発表] 多チャンネル変分自己符号化器を用いた劣決定音源分離2019

    • 著者名/発表者名
      関翔悟,亀岡弘和,李莉,戸田智基,武田一哉
    • 学会等名
      日本音響学会2019年春季研究発表会,1-6-20,pp. 229-230
  • [学会発表] 多チャンネル変分自己符号化器を用いた音源分離と残響除去の統合的アプローチ2019

    • 著者名/発表者名
      井上翔太,亀岡弘和,李莉,関翔悟,牧野昭二
    • 学会等名
      日本音響学会2019年春季研究発表会,2-Q-32,pp. 399-402
  • [学会発表] 時間周波数スイッチングビームフォーマとGated CNNを用いた時間周波数マスクの組み合わせによる劣決定音声強調2019

    • 著者名/発表者名
      髙橋理希,山岡洸瑛,李莉,牧野昭二,山田武
    • 学会等名
      日本音響学会2019年春季研究発表会,1-6-5,pp. 181-184
  • [学会発表] Gated CNNを用いた劣悪な雑音環境下における音声区間検出2019

    • 著者名/発表者名
      李莉,越野ゆき,松本光雄,牧野昭二
    • 学会等名
      電子情報通信学会 電気音響研究会, EA2018-102, pp. 19-24
  • [学会発表] 多チャンネル変分自己符号化器を用いた劣決定音源分離の評価2019

    • 著者名/発表者名
      関翔悟,亀岡弘和,李莉,戸田智基,武田一哉
    • 学会等名
      電子情報通信学会 電気音響研究会, EA2018-154, pp. 323-328
  • [学会発表] Deep clustering with gated convolutional networks2018

    • 著者名/発表者名
      Li Li, and Hirokazu Kameoka
    • 学会等名
      2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2018), pp. 16-20
    • 国際学会

URL: 

公開日: 2019-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi