• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2021 年度 実績報告書

あらゆる音の定位・分離・分類のためのユニバーサル音響理解モデル

研究課題

研究課題/領域番号 20K21813
研究機関京都大学

研究代表者

吉井 和佳  京都大学, 情報学研究科, 准教授 (20510001)

研究期間 (年度) 2020-07-30 – 2022-03-31
キーワード音響信号処理 / 音源分離 / 残響除去
研究実績の概要

2021年度は、これまで培ってきた、音源モデルと空間モデルを統合したユニバーサル音響生成モデルの定式化・推論法を洗練するとともに、音声認識との統合や音楽データ解析への応用に取り組んだ。具体的には、まず、音源数が未知の環境下において、深層音源モデルの生成モデルとしてガンマ過程を導入することにより、観測データの複雑さに応じて適切な個数の音源を推定可能な深層ノンパラメトリックベイズ音響生成モデルを考案した。また、残響に対する頑健性を控除するため、音響生成モデルにおいて、複素ガウス分布の代わりに音源の特性に応じた裾の重さを持つ複素安定分布を用いることにより、同時的ブラインド音源分離・残響除去法の性能改善に成功した。さらに、多チャネルスペクトログラムの深層生成モデルに対し、多チャネル音源分離のための深層推論モデルを導入することでVAEを構成し、両モデルを一挙に教師なし学習することを可能にした。これにより、高価なペアデータを用いずに、高速なオンライン推論を行う基礎技術を確立した。実際似、一連の基礎技術をもとに、音声強調と音声認識を統合したリアルタイム環境理解システムの開発にも着手した。音声データ解析以外への応用としては、未知の楽器も取り扱うことができる楽器音のユニバーサルな音源モデルとして、変分自己符号化器 (VAE) を用いて、楽器音を音高と音色とを潜在状態にもつ楽器音スペクトログラムの生成モデルを学習する方法を考案した。

  • 研究成果

    (8件)

すべて 2021

すべて 雑誌論文 (3件) (うち査読あり 3件) 学会発表 (5件) (うち国際学会 4件)

  • [雑誌論文] Neural Full-Rank Spatial Covariance Analysis for Blind Source Separation2021

    • 著者名/発表者名
      Yoshiaki Bando, Kouhei Sekiguchi, Yoshiki Masuyama, Aditya Arie Nugraha, Mathieu Fontaine, Kazuyoshi Yoshii
    • 雑誌名

      IEEE Signal Processing Letters

      巻: 28 ページ: 1670-1674

    • DOI

      10.1109/lsp.2021.3101699

    • 査読あり
  • [雑誌論文] MirrorNet: A Deep Reflective Approach to 2D Pose Estimation for Single-Person Images2021

    • 著者名/発表者名
      Takayuki Nakatsuka, Kazuyoshi Yoshii, Yuki Koyama, Satoru Fukayama, Masataka Goto, Shigeo Morishima
    • 雑誌名

      Journal of Information Processing

      巻: 29 ページ: 406-423

    • DOI

      10.2197/ipsjjip.29.406

    • 査読あり
  • [雑誌論文] Computationally-Efficient Overdetermined Blind Source Separation Based on Iterative Source Steering2021

    • 著者名/発表者名
      Yicheng Du, Robin Scheibler, Masahito Togami, Kazuyoshi Yoshii, Tatsuya Kawahara
    • 雑誌名

      IEEE Signal Processing Letters

      巻: 29 ページ: 927-931

    • DOI

      10.1109/lsp.2021.3134939

    • 査読あり
  • [学会発表] Alpha-Stable Autoregressive Fast Multichannel Nonnegative Matrix Factorization for Joint Speech Enhancement and Dereverberation2021

    • 著者名/発表者名
      Mathieu Fontaine, Kouhei Sekiguchi, Aditya Arie Nugraha, Yoshiaki Bando, Kazuyoshi Yoshii
    • 学会等名
      Annual Conference of the International Speech Communication Association (Interspeech)
    • 国際学会
  • [学会発表] Gamma Process FastMNMF for Separating an Unknown Number of Sound Sources2021

    • 著者名/発表者名
      Yoshiaki Bando, Kouhei Sekiguchi, Kazuyoshi Yoshii
    • 学会等名
      European Signal Processing Conference (EUSIPCO)
    • 国際学会
  • [学会発表] 変分自己符号化器を用いた距離学習による楽器音の音高・音色分離表現2021

    • 著者名/発表者名
      田中啓太郎, 錦見亮, 坂東宜昭, 吉井和佳, 森島繁生
    • 学会等名
      情報処理学会 第131回音楽情報科学研究会
  • [学会発表] Autoregressive Fast Multichannel Nonnegative Matrix Factorization for Joint Blind Source Separation and Dereverberation2021

    • 著者名/発表者名
      Kouhei Sekiguchi, Yoshiaki Bando, Aditya Arie Nugraha, Mathieu Fontaine, Kazuyoshi Yoshii
    • 学会等名
      IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
    • 国際学会
  • [学会発表] Pitch-Timbre Disentanglement of Musical Instrument Sounds Based on VEA-Based Metric Learning2021

    • 著者名/発表者名
      Keitaro Tanaka, Ryo Nishikimi, Yoshiaki Bando, Kazuyoshi Yoshii, Shigeo Morishima
    • 学会等名
      IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
    • 国際学会

URL: 

公開日: 2022-12-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi