• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2020 年度 実績報告書

スモールデータ機械学習理論に基づく音響拡張現実感及び音コミュニケーション能力拡張

研究課題

研究課題/領域番号 19H01116
研究機関東京大学

研究代表者

猿渡 洋  東京大学, 大学院情報理工学系研究科, 教授 (30324974)

研究分担者 北村 大地  香川高等専門学校, 電気情報工学科, 助教 (40804745)
牧野 昭二  筑波大学, システム情報系, 教授 (60396190)
小山 翔一  東京大学, 大学院情報理工学系研究科, 講師 (80734459)
高道 慎之介  東京大学, 大学院情報理工学系研究科, 助教 (90784330)
中村 友彦  東京大学, 大学院情報理工学系研究科, 特任助教 (50866308)
研究期間 (年度) 2019-04-01 – 2023-03-31
キーワードスモールデータ / 機械学習 / 音響拡張現実感
研究実績の概要

(1)センシング・解析レイヤー:ILRMAを時変複素一般化ガウス分布へ拡張し、その有効性を定量化した。特に劣ガウス分布への拡張を提案し、その音楽信号分離への効果を様々な実験によって検証した。またIDLMAに関しては、時変複素スチューデントt分布・一般化ガウス分布音源生成確率モデルを基礎とする新しいIDLMAを導出し、それらを定量的に評価した。
(2)時空間情報再構成レイヤー:従来の両耳再現の問題として、頭部形状の個人性の問題がある。昨年度に引き続き、これを両耳統計モデルとしてモデル化し、その汎用性に関して検討を行った。また、前レイヤーのブラインド/半教師有り信号分解は基本的にランク1空間モデルと呼ばれるものであり、後段レイヤーへの応用を考えると無数の拡散性音源・雑音が存在する場合を考慮する必要がある(これはフルランク空間モデル推定問題と呼ばれる)。これを高精度かつ高速に実装するため、ILRMAで求められた雑音ランク1空間モデルをMajorization-Minimizationアルゴリズムによる尤度最大化によってフルランクへ拡張する理論を提案し、実環境データで評価を行った。その結果、従来のフルランク音源分離法よりも高速かつ高精度な分離を実現できた。
(3)ユーザインターフェイスレイヤー:直感的な声質・イントネーション制御機能を備えたDNN音声変換技術を構築するため、従来のDNNが要求するような教師有り学習用ビッグデータをどこまでスモールなものに出来るかを検証した。特に、音響尤度に基づくサブワード分割法を用いた教師無し音声合成やスペクトルのGMM近似に基づく音声合成の導入を行い、それらの有効性を定量化できた。

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

全てのレイヤーについて目標を既に達成している。また、特筆すべき点として、時空間情報再構成レイヤーにおいて、その最適化アルゴリズムの更なる高速化として、MMアルゴリズムを更に発展させたMajorization-Equalization (ME) アルゴリズムに基づく手法の開発も一部着手・実装しており、当初の計画以上に進展していると言える。

今後の研究の推進方策

(1)センシング・解析レイヤー:昨年度に検討した時変複素スチューデントt分布・一般化ガウス分布音源生成確率モデルを基礎とするIDLMAに関し、その音源モデルの学習を半教師有り問題へ拡張する。また音源モデルに事前分布を仮定し、そのパラメータも深層学習で推論する経験ベイズの枠組みを導入する。それらを定量的に評価する。
(2)時空間情報再構成レイヤー:無数の拡散性音源・雑音が存在する場合を考慮するため、フルランク空間モデル推定問題を考える。今後は、これをより高精度かつ高速に実装するため、ILRMAで求められた雑音ランク1空間モデルをMajorization-Equalization (ME) アルゴリズムによる尤度最大化によってフルランクへ拡張する理論を構築し、実環境データで評価を行う。特に従来のMEアルゴリズムにおいては単変量の場合しか検討されていないため、これを多変量(ベクトル変数)版へ拡張することも検討する。
(3)ユーザインターフェイスレイヤー:従来のDNNが要求するような教師有り学習用ビッグデータをどこまでスモールなものに出来るかを検証するため、言語モデルによる「先読み」を導入したインクリメンタルな処理を実装し、その有効性を定量化する。立体音響拡張現実感に関しては、カーネルリッジ回帰などを用いた音場の推定・補間理論を導入し、受聴者が任意の位置で所望の音像を得られる理論の検討を行い、シミュレーションによって有効性を検証する。

  • 研究成果

    (34件)

すべて 2021 2020

すべて 雑誌論文 (7件) (うち査読あり 7件、 オープンアクセス 7件) 学会発表 (27件) (うち国際学会 13件)

  • [雑誌論文] Perceptual-Similarity-Aware Deep Speaker Representation Learning for Multi-Speaker Generative Modeling2021

    • 著者名/発表者名
      Saito Yuki、Takamichi Shinnosuke、Saruwatari Hiroshi
    • 雑誌名

      IEEE/ACM Transactions on Audio, Speech, and Language Processing

      巻: 29 ページ: 1033~1048

    • DOI

      10.1109/TASLP.2021.3059114

    • 査読あり / オープンアクセス
  • [雑誌論文] Noise Robust Acoustic Anomaly Detection System with Nonnegative Matrix Factorization Based on Generalized Gaussian Distribution2021

    • 著者名/発表者名
      AIBA Akihito、YOSHIDA Minoru、KITAMURA Daichi、TAKAMICHI Shinnosuke、SARUWATARI Hiroshi
    • 雑誌名

      IEICE Transactions on Information and Systems

      巻: E104.D ページ: 441~449

    • DOI

      10.1587/transinf.2020EDK0002

    • 査読あり / オープンアクセス
  • [雑誌論文] Multichannel Blind Source Separation Based on Evanescent-Region-Aware Non-Negative Tensor Factorization in Spherical Harmonic Domain2021

    • 著者名/発表者名
      Mitsufuji Yuki、Takamune Norihiro、Koyama Shoichi、Saruwatari Hiroshi
    • 雑誌名

      IEEE/ACM Transactions on Audio, Speech, and Language Processing

      巻: 29 ページ: 607~617

    • DOI

      10.1109/TASLP.2020.3045528

    • 査読あり / オープンアクセス
  • [雑誌論文] Perception analysis of inter-singer similarity in Japanese song2020

    • 著者名/発表者名
      Tamaru Hiroki、Takamichi Shinnosuke、Saruwatari Hiroshi
    • 雑誌名

      Acoustical Science and Technology

      巻: 41 ページ: 804~807

    • DOI

      10.1250/ast.41.804

    • 査読あり / オープンアクセス
  • [雑誌論文] DNN-Based Full-Band Speech Synthesis Using GMM Approximation of Spectral Envelope2020

    • 著者名/発表者名
      KOGUCHI Junya、TAKAMICHI Shinnosuke、MORISE Masanori、SARUWATARI Hiroshi、SAGAYAMA Shigeki
    • 雑誌名

      IEICE Transactions on Information and Systems

      巻: E103.D ページ: 2673~2681

    • DOI

      10.1587/transinf.2020EDP7075

    • 査読あり / オープンアクセス
  • [雑誌論文] Blind Speech Extraction Based on Rank-Constrained Spatial Covariance Matrix Estimation With Multivariate Generalized Gaussian Distribution2020

    • 著者名/発表者名
      Kubo Yuki、Takamune Norihiro、Kitamura Daichi、Saruwatari Hiroshi
    • 雑誌名

      IEEE/ACM Transactions on Audio, Speech, and Language Processing

      巻: 28 ページ: 1948~1963

    • DOI

      10.1109/TASLP.2020.3003165

    • 査読あり / オープンアクセス
  • [雑誌論文] Consistent independent low-rank matrix analysis for determined blind source separation2020

    • 著者名/発表者名
      Kitamura Daichi、Yatabe Kohei
    • 雑誌名

      EURASIP Journal on Advances in Signal Processing

      巻: 2020 ページ: 1~35

    • DOI

      10.1186/s13634-020-00704-4

    • 査読あり / オープンアクセス
  • [学会発表] 多変量複素Sub-Gauss分布に基づく同時対角化制約付き多チャネル非負値行列因子分解におけるmajorization-equalizationアルゴリズムを用いた更新則2021

    • 著者名/発表者名
      加茂佳吾,久保優騎,高宗典玄,北村大地,猿渡洋,高橋祐,近藤多伸
    • 学会等名
      日本音響学会 2021年春季研究発表会講演論文集
  • [学会発表] ランク制約付き空間共分散行列推定法における補助関数法に基づく雑音欠落ランク空間基底に対する新しい更新則2021

    • 著者名/発表者名
      近藤祐斗, 久保優騎, 高宗典玄, 北村大地, 猿渡洋
    • 学会等名
      日本音響学会2021春季研究発表会
  • [学会発表] スタガードモデル化三重対角型共分散行列を用いた独立半正定値テンソル分析によるブラインド音源分離2021

    • 著者名/発表者名
      近藤樹、高宗典玄、北村大地、猿渡洋、池下林太郎、中谷智広
    • 学会等名
      日本音響学会2021春季研究発表会
  • [学会発表] 経験ベイズ独立深層学習行列分析による多チャネル音源分離2021

    • 著者名/発表者名
      蓮実拓也,中村友彦,高宗典玄,猿渡洋,北村大地,高橋祐,近藤多伸
    • 学会等名
      日本音響学会2021春季研究発表会
  • [学会発表] 独立深層学習テンソル分析に基づく多チャネル?源分離2021

    • 著者名/発表者名
      成澤直輝,池下林太郎,高宗典玄,北村大地,中村友彦,猿渡洋,中谷智広
    • 学会等名
      日本音響学会2021春季研究発表会
  • [学会発表] 音場合成のための所望音場の事前情報を用いた二乗誤差期待値最小化規準スピーカ配置最適化法2021

    • 著者名/発表者名
      木村圭佑,小山翔一,植野夏樹,猿渡洋
    • 学会等名
      日本音響学会2021年春季研究発表会
  • [学会発表] スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価2021

    • 著者名/発表者名
      北村大地,矢田部浩平
    • 学会等名
      日本音響学会2021年春季研究発表会
  • [学会発表] 深層学習に基づく周波数帯域補間手法による音源分離処理の高速化2021

    • 著者名/発表者名
      渡辺瑠伊,北村大地,猿渡洋,高橋祐,近藤多伸
    • 学会等名
      日本音響学会2021年春季研究発表会
  • [学会発表] Joint-Diagonalizability-Constrained Multichannel Nonnegative Matrix Factorization Based on Multivariate Complex Sub-Gaussian Distribution2021

    • 著者名/発表者名
      Keigo Kamo, Yuki Kubo, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari, Yu Takahashi and Kazunobu Kondo
    • 学会等名
      European Signal Processing Conference (EUSIPCO 2020)
    • 国際学会
  • [学会発表] Sensor Placement in Arbitrarily Restricted Region for Field Estimation Based on Gaussian Process2021

    • 著者名/発表者名
      Tomoya Nishida, Natsuki Ueno, Shoichi Koyama and Hiroshi Saruwatari
    • 学会等名
      European Signal Processing Conference (EUSIPCO 2020)
    • 国際学会
  • [学会発表] DNN-Based Frequency Component Prediction for Frequency-Domain Audio Source Separation2021

    • 著者名/発表者名
      Rui Watanabe, Daichi Kitamura, Hiroshi Saruwatari, Yu Takahashi, and Kazunobu Kondo
    • 学会等名
      European Signal Processing Conference (EUSIPCO 2020)
    • 国際学会
  • [学会発表] Joint-Diagonalizability-Constrained Multichannel Nonnegative Matrix Factorization Based on Multivariate Complex Student’s t-distribution2020

    • 著者名/発表者名
      Keigo Kamo, Yuki Kubo, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari, Yu Takahashi and Kazunobu Kondo
    • 学会等名
      Asia-Pacific Signal and Information Processing Association (APSIPA 2020)
    • 国際学会
  • [学会発表] DNN-Based Permutation Solver for Frequency-Domain Independent Component Analysis in Two-Source Mixture Case2020

    • 著者名/発表者名
      Shuhei Yamaji and Daichi Kitamura
    • 学会等名
      Asia-Pacific Signal and Information Processing Association (APSIPA 2020)
    • 国際学会
  • [学会発表] Mutual-Information-Based Sensor Placement for Spatial Sound Field Recording2020

    • 著者名/発表者名
      Kentaro Ariga, Tomoya Nishida, Shoichi Koyama, Natsuki Ueno, and Hiroshi Saruwatari
    • 学会等名
      The 45th International Conference on Acoustics, Speech, and Signal Processing (ICASSP2020)
    • 国際学会
  • [学会発表] Convergence-Guaranteed Independent Positive Semidefinite Tensor Analysis Based on Student’s T Distribution2020

    • 著者名/発表者名
      Tatsuki Kondo, Kanta Fukushige, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari, Rintaro Ikeshita, Tomohiro Nakatani
    • 学会等名
      The 45th International Conference on Acoustics, Speech, and Signal Processing (ICASSP2020)
    • 国際学会
  • [学会発表] Regularized Fast Multichannel Nonnegative Matrix Factorization with ILRMA-based Prior Distribution of Joint-Diagonalization Process2020

    • 著者名/発表者名
      Keigo Kamo, Yuki Kubo, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari, Yu Takahashi and Kazunobu Kondo
    • 学会等名
      The 45th International Conference on Acoustics, Speech, and Signal Processing (ICASSP2020)
    • 国際学会
  • [学会発表] SMASH corpus: a spontaneous speech corpus recording third-person audio commentaries on gameplay2020

    • 著者名/発表者名
      Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari
    • 学会等名
      The International Conference on Language Resources and Evaluation(LREC 2020)
    • 国際学会
  • [学会発表] Time-domain Audio Source Separation based on Wave-U-Net Combined with Discrete Wavelet Transform2020

    • 著者名/発表者名
      Tomohiko Nakamura and Hiroshi Saruwatari
    • 学会等名
      The 45th International Conference on Acoustics, Speech, and Signal Processing (ICASSP2020)
    • 国際学会
  • [学会発表] Investigation on Wavelet Basis Function of DNN-based Time Domain Audio Source Separation Inspired by Multiresolution Analysis2020

    • 著者名/発表者名
      Shihori Kozuka, Tomohiko Nakamura and Hiroshi Saruwatari
    • 学会等名
      The 49th International Congress and Exposition on Noise Control Engineering (INTERNOISE2020)
    • 国際学会
  • [学会発表] 多変量複素Sub-Gauss分布に基づく同時対角化制約付き多チャネル非負値行列因子分解の様々な残響条件下における実験的評価2020

    • 著者名/発表者名
      加茂佳吾,久保優騎,高宗典玄,北村大地,猿渡洋,高橋祐,近藤多伸
    • 学会等名
      日本音響学会 2020年秋季研究発表会講演論文集
  • [学会発表] 音源分離のための周波数間相関を考慮した多変量複素Gauss分布に基づく深層学習による分散共分散行列推定の検討2020

    • 著者名/発表者名
      成澤直輝,高宗典玄,北村大地,中村友彦,猿渡洋
    • 学会等名
      日本音響学会2020秋季研究発表会
  • [学会発表] ブラインド音声抽出のためのランク制約付き空間共分散行列推定法における雑音欠落ランク空間基底推定2020

    • 著者名/発表者名
      近藤祐斗, 久保優騎, 高宗典玄, 北村大地, 猿渡洋
    • 学会等名
      日本音響学会2020秋季研究発表会
  • [学会発表] ユーザーからの補助情報を用いる独立低ランク行列分析2020

    • 著者名/発表者名
      大島風雅,中野将生,北村大地
    • 学会等名
      日本音響学会2020秋季研究発表会
  • [学会発表] 深層学習に基づく音響帯域拡張による音源分離処理の高速化2020

    • 著者名/発表者名
      渡辺瑠伊,北村大地,猿渡洋,高橋祐,近藤多伸
    • 学会等名
      日本音響学会2020秋季研究発表会
  • [学会発表] 局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価2020

    • 著者名/発表者名
      山地修平,北村大地
    • 学会等名
      日本音響学会2020秋季研究発表会
  • [学会発表] Multichannel Hearing-aid System Based on Basis-Shared Semi-Supervised Independent Low-Rank Matrix Analysis2020

    • 著者名/発表者名
      Masakazu Une, Yuki Kubo, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari, and Shoji Makino
    • 学会等名
      Forum Acusticum 2020
    • 国際学会
  • [学会発表] Kernel Interpolation of Acoustic Transfer Function Between Regions Considering Reciprocity2020

    • 著者名/発表者名
      J. G. C. Ribeiro, N. Ueno,S. Koyama, and H. Saruwatari
    • 学会等名
      IEEE Sensor Array and Multichannel Signal Processing Workshop (SAM)
    • 国際学会

URL: 

公開日: 2021-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi