2020 Fiscal Year Annual Research Report

スモールデータ機械学習理論に基づく音響拡張現実感及び音コミュニケーション能力拡張

Research Project

Project/Area Number	19H01116
Research Institution	The University of Tokyo
Principal Investigator	猿渡洋東京大学, 大学院情報理工学系研究科, 教授 (30324974)
Co-Investigator(Kenkyū-buntansha)	北村大地香川高等専門学校, 電気情報工学科, 助教 (40804745) 牧野昭二筑波大学, システム情報系, 教授 (60396190) 小山翔一東京大学, 大学院情報理工学系研究科, 講師 (80734459) 高道慎之介東京大学, 大学院情報理工学系研究科, 助教 (90784330) 中村友彦東京大学, 大学院情報理工学系研究科, 特任助教 (50866308)
Project Period (FY)	2019-04-01 – 2023-03-31
Keywords	スモールデータ / 機械学習 / 音響拡張現実感
Outline of Annual Research Achievements	（１）センシング・解析レイヤー：ILRMAを時変複素一般化ガウス分布へ拡張し、その有効性を定量化した。特に劣ガウス分布への拡張を提案し、その音楽信号分離への効果を様々な実験によって検証した。またIDLMAに関しては、時変複素スチューデントt分布・一般化ガウス分布音源生成確率モデルを基礎とする新しいIDLMAを導出し、それらを定量的に評価した。（２）時空間情報再構成レイヤー：従来の両耳再現の問題として、頭部形状の個人性の問題がある。昨年度に引き続き、これを両耳統計モデルとしてモデル化し、その汎用性に関して検討を行った。また、前レイヤーのブラインド/半教師有り信号分解は基本的にランク1空間モデルと呼ばれるものであり、後段レイヤーへの応用を考えると無数の拡散性音源・雑音が存在する場合を考慮する必要がある（これはフルランク空間モデル推定問題と呼ばれる）。これを高精度かつ高速に実装するため、ILRMAで求められた雑音ランク1空間モデルをMajorization-Minimizationアルゴリズムによる尤度最大化によってフルランクへ拡張する理論を提案し、実環境データで評価を行った。その結果、従来のフルランク音源分離法よりも高速かつ高精度な分離を実現できた。（３）ユーザインターフェイスレイヤー：直感的な声質・イントネーション制御機能を備えたDNN音声変換技術を構築するため、従来のDNNが要求するような教師有り学習用ビッグデータをどこまでスモールなものに出来るかを検証した。特に、音響尤度に基づくサブワード分割法を用いた教師無し音声合成やスペクトルのGMM近似に基づく音声合成の導入を行い、それらの有効性を定量化できた。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 全てのレイヤーについて目標を既に達成している。また、特筆すべき点として、時空間情報再構成レイヤーにおいて、その最適化アルゴリズムの更なる高速化として、MMアルゴリズムを更に発展させたMajorization-Equalization (ME) アルゴリズムに基づく手法の開発も一部着手・実装しており、当初の計画以上に進展していると言える。
Strategy for Future Research Activity	（１）センシング・解析レイヤー：昨年度に検討した時変複素スチューデントt分布・一般化ガウス分布音源生成確率モデルを基礎とするIDLMAに関し、その音源モデルの学習を半教師有り問題へ拡張する。また音源モデルに事前分布を仮定し、そのパラメータも深層学習で推論する経験ベイズの枠組みを導入する。それらを定量的に評価する。（２）時空間情報再構成レイヤー：無数の拡散性音源・雑音が存在する場合を考慮するため、フルランク空間モデル推定問題を考える。今後は、これをより高精度かつ高速に実装するため、ILRMAで求められた雑音ランク1空間モデルをMajorization-Equalization (ME) アルゴリズムによる尤度最大化によってフルランクへ拡張する理論を構築し、実環境データで評価を行う。特に従来のMEアルゴリズムにおいては単変量の場合しか検討されていないため、これを多変量（ベクトル変数）版へ拡張することも検討する。（３）ユーザインターフェイスレイヤー：従来のDNNが要求するような教師有り学習用ビッグデータをどこまでスモールなものに出来るかを検証するため、言語モデルによる「先読み」を導入したインクリメンタルな処理を実装し、その有効性を定量化する。立体音響拡張現実感に関しては、カーネルリッジ回帰などを用いた音場の推定・補間理論を導入し、受聴者が任意の位置で所望の音像を得られる理論の検討を行い、シミュレーションによって有効性を検証する。

Research Products
(34 results)

All 2021 2020

All Journal Article (7 results) (of which Peer Reviewed: 7 results, Open Access: 7 results) Presentation (27 results) (of which Int'l Joint Research: 13 results)

[Journal Article] Perceptual-Similarity-Aware Deep Speaker Representation Learning for Multi-Speaker Generative Modeling2021
- Author(s)
  Saito Yuki、Takamichi Shinnosuke、Saruwatari Hiroshi
- Journal Title
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  Volume: 29 Pages: 1033～1048
- DOI
  10.1109/TASLP.2021.3059114
- Peer Reviewed / Open Access
[Journal Article] Noise Robust Acoustic Anomaly Detection System with Nonnegative Matrix Factorization Based on Generalized Gaussian Distribution2021
- Author(s)
  AIBA Akihito、YOSHIDA Minoru、KITAMURA Daichi、TAKAMICHI Shinnosuke、SARUWATARI Hiroshi
- Journal Title
  
  IEICE Transactions on Information and Systems
  
  Volume: E104.D Pages: 441～449
- DOI
  10.1587/transinf.2020EDK0002
- Peer Reviewed / Open Access
[Journal Article] Multichannel Blind Source Separation Based on Evanescent-Region-Aware Non-Negative Tensor Factorization in Spherical Harmonic Domain2021
- Author(s)
  Mitsufuji Yuki、Takamune Norihiro、Koyama Shoichi、Saruwatari Hiroshi
- Journal Title
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  Volume: 29 Pages: 607～617
- DOI
  10.1109/TASLP.2020.3045528
- Peer Reviewed / Open Access
[Journal Article] Perception analysis of inter-singer similarity in Japanese song2020
- Author(s)
  Tamaru Hiroki、Takamichi Shinnosuke、Saruwatari Hiroshi
- Journal Title
  
  Acoustical Science and Technology
  
  Volume: 41 Pages: 804～807
- DOI
  10.1250/ast.41.804
- Peer Reviewed / Open Access
[Journal Article] DNN-Based Full-Band Speech Synthesis Using GMM Approximation of Spectral Envelope2020
- Author(s)
  KOGUCHI Junya、TAKAMICHI Shinnosuke、MORISE Masanori、SARUWATARI Hiroshi、SAGAYAMA Shigeki
- Journal Title
  
  IEICE Transactions on Information and Systems
  
  Volume: E103.D Pages: 2673～2681
- DOI
  10.1587/transinf.2020EDP7075
- Peer Reviewed / Open Access
[Journal Article] Blind Speech Extraction Based on Rank-Constrained Spatial Covariance Matrix Estimation With Multivariate Generalized Gaussian Distribution2020
- Author(s)
  Kubo Yuki、Takamune Norihiro、Kitamura Daichi、Saruwatari Hiroshi
- Journal Title
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  Volume: 28 Pages: 1948～1963
- DOI
  10.1109/TASLP.2020.3003165
- Peer Reviewed / Open Access
[Journal Article] Consistent independent low-rank matrix analysis for determined blind source separation2020
- Author(s)
  Kitamura Daichi、Yatabe Kohei
- Journal Title
  
  EURASIP Journal on Advances in Signal Processing
  
  Volume: 2020 Pages: 1～35
- DOI
  10.1186/s13634-020-00704-4
- Peer Reviewed / Open Access
[Presentation] 多変量複素Sub-Gauss分布に基づく同時対角化制約付き多チャネル非負値行列因子分解におけるmajorization-equalizationアルゴリズムを用いた更新則2021
- Author(s)
  加茂佳吾，久保優騎，高宗典玄，北村大地，猿渡洋，高橋祐，近藤多伸
- Organizer
  日本音響学会 2021年春季研究発表会講演論文集
[Presentation] ランク制約付き空間共分散行列推定法における補助関数法に基づく雑音欠落ランク空間基底に対する新しい更新則2021
- Author(s)
  近藤祐斗, 久保優騎, 高宗典玄, 北村大地, 猿渡洋
- Organizer
  日本音響学会2021春季研究発表会
[Presentation] スタガードモデル化三重対角型共分散行列を用いた独立半正定値テンソル分析によるブラインド音源分離2021
- Author(s)
  近藤樹、高宗典玄、北村大地、猿渡洋、池下林太郎、中谷智広
- Organizer
  日本音響学会2021春季研究発表会
[Presentation] 経験ベイズ独立深層学習行列分析による多チャネル音源分離2021
- Author(s)
  蓮実拓也，中村友彦，高宗典玄，猿渡洋，北村大地，高橋祐，近藤多伸
- Organizer
  日本音響学会2021春季研究発表会
[Presentation] 独立深層学習テンソル分析に基づく多チャネル?源分離2021
- Author(s)
  成澤直輝，池下林太郎，高宗典玄，北村大地，中村友彦，猿渡洋，中谷智広
- Organizer
  日本音響学会2021春季研究発表会
[Presentation] 音場合成のための所望音場の事前情報を用いた二乗誤差期待値最小化規準スピーカ配置最適化法2021
- Author(s)
  木村圭佑，小山翔一，植野夏樹，猿渡洋
- Organizer
  日本音響学会2021年春季研究発表会
[Presentation] スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価2021
- Author(s)
  北村大地，矢田部浩平
- Organizer
  日本音響学会2021年春季研究発表会
[Presentation] 深層学習に基づく周波数帯域補間手法による音源分離処理の高速化2021
- Author(s)
  渡辺瑠伊，北村大地，猿渡洋，高橋祐，近藤多伸
- Organizer
  日本音響学会2021年春季研究発表会
[Presentation] Joint-Diagonalizability-Constrained Multichannel Nonnegative Matrix Factorization Based on Multivariate Complex Sub-Gaussian Distribution2021
- Author(s)
  Keigo Kamo, Yuki Kubo, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari, Yu Takahashi and Kazunobu Kondo
- Organizer
  European Signal Processing Conference (EUSIPCO 2020)
- Int'l Joint Research
[Presentation] Sensor Placement in Arbitrarily Restricted Region for Field Estimation Based on Gaussian Process2021
- Author(s)
  Tomoya Nishida, Natsuki Ueno, Shoichi Koyama and Hiroshi Saruwatari
- Organizer
  European Signal Processing Conference (EUSIPCO 2020)
- Int'l Joint Research
[Presentation] DNN-Based Frequency Component Prediction for Frequency-Domain Audio Source Separation2021
- Author(s)
  Rui Watanabe, Daichi Kitamura, Hiroshi Saruwatari, Yu Takahashi, and Kazunobu Kondo
- Organizer
  European Signal Processing Conference (EUSIPCO 2020)
- Int'l Joint Research
[Presentation] Joint-Diagonalizability-Constrained Multichannel Nonnegative Matrix Factorization Based on Multivariate Complex Student’s t-distribution2020
- Author(s)
  Keigo Kamo, Yuki Kubo, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari, Yu Takahashi and Kazunobu Kondo
- Organizer
  Asia-Pacific Signal and Information Processing Association (APSIPA 2020)
- Int'l Joint Research
[Presentation] DNN-Based Permutation Solver for Frequency-Domain Independent Component Analysis in Two-Source Mixture Case2020
- Author(s)
  Shuhei Yamaji and Daichi Kitamura
- Organizer
  Asia-Pacific Signal and Information Processing Association (APSIPA 2020)
- Int'l Joint Research
[Presentation] Mutual-Information-Based Sensor Placement for Spatial Sound Field Recording2020
- Author(s)
  Kentaro Ariga, Tomoya Nishida, Shoichi Koyama, Natsuki Ueno, and Hiroshi Saruwatari
- Organizer
  The 45th International Conference on Acoustics, Speech, and Signal Processing (ICASSP2020)
- Int'l Joint Research
[Presentation] Convergence-Guaranteed Independent Positive Semidefinite Tensor Analysis Based on Student’s T Distribution2020
- Author(s)
  Tatsuki Kondo, Kanta Fukushige, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari, Rintaro Ikeshita, Tomohiro Nakatani
- Organizer
  The 45th International Conference on Acoustics, Speech, and Signal Processing (ICASSP2020)
- Int'l Joint Research
[Presentation] Regularized Fast Multichannel Nonnegative Matrix Factorization with ILRMA-based Prior Distribution of Joint-Diagonalization Process2020
- Author(s)
  Keigo Kamo, Yuki Kubo, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari, Yu Takahashi and Kazunobu Kondo
- Organizer
  The 45th International Conference on Acoustics, Speech, and Signal Processing (ICASSP2020)
- Int'l Joint Research
[Presentation] SMASH corpus: a spontaneous speech corpus recording third-person audio commentaries on gameplay2020
- Author(s)
  Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari
- Organizer
  The International Conference on Language Resources and Evaluation（LREC 2020）
- Int'l Joint Research
[Presentation] Time-domain Audio Source Separation based on Wave-U-Net Combined with Discrete Wavelet Transform2020
- Author(s)
  Tomohiko Nakamura and Hiroshi Saruwatari
- Organizer
  The 45th International Conference on Acoustics, Speech, and Signal Processing (ICASSP2020)
- Int'l Joint Research
[Presentation] Investigation on Wavelet Basis Function of DNN-based Time Domain Audio Source Separation Inspired by Multiresolution Analysis2020
- Author(s)
  Shihori Kozuka, Tomohiko Nakamura and Hiroshi Saruwatari
- Organizer
  The 49th International Congress and Exposition on Noise Control Engineering (INTERNOISE2020)
- Int'l Joint Research
[Presentation] 多変量複素Sub-Gauss分布に基づく同時対角化制約付き多チャネル非負値行列因子分解の様々な残響条件下における実験的評価2020
- Author(s)
  加茂佳吾，久保優騎，高宗典玄，北村大地，猿渡洋，高橋祐，近藤多伸
- Organizer
  日本音響学会 2020年秋季研究発表会講演論文集
[Presentation] 音源分離のための周波数間相関を考慮した多変量複素Gauss分布に基づく深層学習による分散共分散行列推定の検討2020
- Author(s)
  成澤直輝，高宗典玄，北村大地，中村友彦，猿渡洋
- Organizer
  日本音響学会2020秋季研究発表会
[Presentation] ブラインド音声抽出のためのランク制約付き空間共分散行列推定法における雑音欠落ランク空間基底推定2020
- Author(s)
  近藤祐斗, 久保優騎, 高宗典玄, 北村大地, 猿渡洋
- Organizer
  日本音響学会2020秋季研究発表会
[Presentation] ユーザーからの補助情報を用いる独立低ランク行列分析2020
- Author(s)
  大島風雅，中野将生，北村大地
- Organizer
  日本音響学会2020秋季研究発表会
[Presentation] 深層学習に基づく音響帯域拡張による音源分離処理の高速化2020
- Author(s)
  渡辺瑠伊，北村大地，猿渡洋，高橋祐，近藤多伸
- Organizer
  日本音響学会2020秋季研究発表会
[Presentation] 局所時間周波数構造に基づく深層パーミュテーション解決法の実験的評価2020
- Author(s)
  山地修平，北村大地
- Organizer
  日本音響学会2020秋季研究発表会
[Presentation] Multichannel Hearing-aid System Based on Basis-Shared Semi-Supervised Independent Low-Rank Matrix Analysis2020
- Author(s)
  Masakazu Une, Yuki Kubo, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari, and Shoji Makino
- Organizer
  Forum Acusticum 2020
- Int'l Joint Research
[Presentation] Kernel Interpolation of Acoustic Transfer Function Between Regions Considering Reciprocity2020
- Author(s)
  J. G. C. Ribeiro, N. Ueno,S. Koyama, and H. Saruwatari
- Organizer
  IEEE Sensor Array and Multichannel Signal Processing Workshop (SAM)
- Int'l Joint Research

2020 Fiscal Year Annual Research Report

スモールデータ機械学習理論に基づく音響拡張現実感及び音コミュニケーション能力拡張

Principal Investigator

猿渡 洋 東京大学, 大学院情報理工学系研究科, 教授 (30324974)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Perceptual-Similarity-Aware Deep Speaker Representation Learning for Multi-Speaker Generative Modeling2021

Author(s)

Journal Title

DOI

[Journal Article] Noise Robust Acoustic Anomaly Detection System with Nonnegative Matrix Factorization Based on Generalized Gaussian Distribution2021

Author(s)

Journal Title

DOI

[Journal Article] Multichannel Blind Source Separation Based on Evanescent-Region-Aware Non-Negative Tensor Factorization in Spherical Harmonic Domain2021

Author(s)

Journal Title

DOI

[Journal Article] Perception analysis of inter-singer similarity in Japanese song2020

Author(s)

Journal Title

DOI

[Journal Article] DNN-Based Full-Band Speech Synthesis Using GMM Approximation of Spectral Envelope2020

Author(s)

Journal Title

DOI

[Journal Article] Blind Speech Extraction Based on Rank-Constrained Spatial Covariance Matrix Estimation With Multivariate Generalized Gaussian Distribution2020

Author(s)

Journal Title

DOI

[Journal Article] Consistent independent low-rank matrix analysis for determined blind source separation2020

Author(s)

Journal Title

DOI

[Presentation] 多変量複素Sub-Gauss分布に基づく同時対角化制約付き多チャネル非負値行列因子分解におけるmajorization-equalizationアルゴリズムを用いた更新則2021

Author(s)

Organizer

[Presentation] ランク制約付き空間共分散行列推定法における補助関数法に基づく雑音欠落ランク空間基底に対する新しい更新則2021

Author(s)

Organizer

[Presentation] スタガードモデル化三重対角型共分散行列を用いた独立半正定値テンソル分析によるブラインド音源分離2021

Author(s)

Organizer

[Presentation] 経験ベイズ独立深層学習行列分析による多チャネル音源分離2021

Author(s)

Organizer

[Presentation] 独立深層学習テンソル分析に基づく多チャネル?源分離2021

Author(s)

Organizer

[Presentation] 音場合成のための所望音場の事前情報を用いた二乗誤差期待値最小化規準スピーカ配置最適化法2021

Author(s)

Organizer

[Presentation] スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価2021

Author(s)

Organizer

[Presentation] 深層学習に基づく周波数帯域補間手法による音源分離処理の高速化2021

Author(s)

Organizer

[Presentation] Joint-Diagonalizability-Constrained Multichannel Nonnegative Matrix Factorization Based on Multivariate Complex Sub-Gaussian Distribution2021

Author(s)

Organizer

[Presentation] Sensor Placement in Arbitrarily Restricted Region for Field Estimation Based on Gaussian Process2021

Author(s)

Organizer

[Presentation] DNN-Based Frequency Component Prediction for Frequency-Domain Audio Source Separation2021

Author(s)

Organizer

[Presentation] Joint-Diagonalizability-Constrained Multichannel Nonnegative Matrix Factorization Based on Multivariate Complex Student’s t-distribution2020

Author(s)

Organizer

[Presentation] DNN-Based Permutation Solver for Frequency-Domain Independent Component Analysis in Two-Source Mixture Case2020

Author(s)

Organizer

[Presentation] Mutual-Information-Based Sensor Placement for Spatial Sound Field Recording2020

Author(s)

Organizer

[Presentation] Convergence-Guaranteed Independent Positive Semidefinite Tensor Analysis Based on Student’s T Distribution2020

Author(s)

Organizer

猿渡洋東京大学, 大学院情報理工学系研究科, 教授 (30324974)