2019 Fiscal Year Annual Research Report

スモールデータ機械学習理論に基づく音響拡張現実感及び音コミュニケーション能力拡張

Research Project

Project/Area Number	19H01116
Research Institution	The University of Tokyo
Principal Investigator	猿渡洋東京大学, 大学院情報理工学系研究科, 教授 (30324974)
Co-Investigator(Kenkyū-buntansha)	北村大地香川高等専門学校, 電気情報工学科, 助教 (40804745) 牧野昭二筑波大学, システム情報系, 教授 (60396190) 小山翔一東京大学, 大学院情報理工学系研究科, 講師 (80734459) 高道慎之介東京大学, 大学院情報理工学系研究科, 助教 (90784330)
Project Period (FY)	2019-04-01 – 2023-03-31
Keywords	スモールデータ / 機械学習 / 音響拡張現実感
Outline of Annual Research Achievements	（１）センシング・解析レイヤー：ILRMの生成モデルをより一般化するため、時変複素スチューデントt分布や時変複素一般化ガウス分布へ拡張し、その有効性をを実験によって確認した。実験結果より、わずかな優ガウス性（スパース性）の付与が分離性能に大きく貢献することが分かった。またこれに併せ、不特定多数マイク信号のシミュレーションデータベースを収録した。（２）時空間情報再構成レイヤー：(2-a) 部形状の個人性を反映した両耳統計モデル：ユーザ毎に異なる両耳効果を両耳統計モデルとしてモデル化し、その汎用性に関してシミュレーション検討を行った。(2-b) フルランク空間相関モデルの高速推定及び劣決定問題への拡張：フルランク空間モデル推定問題を効率的に解決するため、ILRMAで求められた雑音ランク1空間モデルをExpectation-Maximization (EM)アルゴリズムによる尤度最大化によってフルランクへ拡張する理論を構築し、その有効性をシミュレーション実験によって実証した。（３）ユーザインターフェイスレイヤー：統計的声質変換による音声拡張現実感：補聴器等の音コミュニケーション能力拡張を想定する場合、ユーザがより聞き取りやすい音声を柔軟に生成するため、直感的な声質・イントネーション制御機能を備えたDNN音声変換技術を構築した。ここでは、従来のDNNが要求するような教師有り学習用ビッグデータをどこまでスモールなものに出来るかを検証するため、フーリエドメインGAN・GMMNによる学習正則化の導入及び位相生成DNNによる学習データ削減やHighwayNetの導入を行い、それらの有効性を実験によって定量化した。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 全てのレイヤーについて目標を既に達成している。また、特筆すべき点として、センシング・解析レイヤーにおいて、DNNとILRMAを融合させた独立深層学習行列分析（IDLMA）にも着手しており、既に成果が出始めている。また、時空間情報再構成レイヤーにおいても、その最適化アルゴリズムの更なる高速化として、EMアルゴリズムのみならず補助関数法に基づくアルゴリズムの開発も一部着手・実装しており、当初の計画以上に進展していると言える。
Strategy for Future Research Activity	2020年度は以下の方策に従って研究を発展させる。（１）センシング・解析レイヤー：時変複素一般化ガウス分布に関しては、特に劣ガウス分布への拡張は未踏の領域であり、その効果を様々な実験によって定量化する。半教師有りIDLMAに関しては、時変複素スチューデントt分布・一般化ガウス分布音源生成確率モデルを基礎とする新しいIDLMAを導出し、それらを定量的に評価する。（２）時空間情報再構成レイヤー：フルランク空間相関モデルの高速推定及び劣決定問題への拡張に関し、本年度は、これをより高精度かつ高速に実装するため、ILRMAで求められた雑音ランク1空間モデルを補助関数法（Majorization-Minimizationアルゴリズム）による尤度最大化によってフルランクへ拡張する理論を構築し、実環境データで評価を行う。（３）ユーザインターフェイスレイヤー：補聴器等の音コミュニケーション能力拡張を想定する場合、ユーザがより聞き取りやすい音声を柔軟に生成するため、直感的な声質・イントネーション制御機能を備えたDNN音声変換技術を構築する。ここでは、従来のDNNが要求するような教師有り学習用ビッグデータをどこまでスモールなものに出来るかを検証するため、音響尤度に基づくサブワード分割法を用いた教師無し音声合成やスペクトルのGMM近似に基づく音声合成の導入を行い、それらの有効性を定量化する。

Research Products
(27 results)

All 2020 2019

All Journal Article (3 results) (of which Peer Reviewed: 3 results, Open Access: 3 results) Presentation (23 results) (of which Int'l Joint Research: 5 results) Patent(Industrial Property Rights) (1 results)

[Journal Article] Independent Deeply Learned Matrix Analysis for Determined Audio Source Separation2019
- Author(s)
  Naoki Makishima, Shinichi Mogami, Norihiro Takamune, Daichi Kitamura, Hayato Sumino, Shinnosuke Takamichi, Hiroshi Saruwatari, and Nobutaka Ono
- Journal Title
  
  IEEE/ACM Transactions on Audio, Speech and Language Processing
  
  Volume: 27 Pages: 1601-1615
- DOI
  10.1109/TASLP.2019.2925450
- Peer Reviewed / Open Access
[Journal Article] Multichannel non-negative matrix factorization using banded spatial covariance matrices in wavenumber domain2019
- Author(s)
  Yuki Mitsufuji, Stefan Uhlich, Norihiro Takamune, Daichi Kitamura, Shoichi Koyama, Hiroshi Saruwatari
- Journal Title
  
  IEEE/ACM Transactions on Audio, Speech and Language Processing
  
  Volume: 28 Pages: 49-60
- DOI
  10.1109/TASLP.2019.2948770
- Peer Reviewed / Open Access
[Journal Article] Independent low-rank matrix analysis based on time-variant sub-Gaussian source model for determined blind source separation2019
- Author(s)
  Shinichi Mogami, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari, Yu Takahashi, Kazunobu Kondo, Nobutaka Ono
- Journal Title
  
  IEEE/ACM Transactions on Audio, Speech and Language Processing
  
  Volume: 28 Pages: 503-518
- DOI
  10.1109/TASLP.2019.2959257
- Peer Reviewed / Open Access
[Presentation] Region-to-region acoustic transfer function estimation with distributed sources and receivers based on kernel interpolation2020
- Author(s)
  J. G. C. Ribeiro, N. Ueno, S. Koyama, and H. Saruwatari
- Organizer
  電子情報通信学会技術研究報告
[Presentation] 基底共有型半教師あり独立低ランク行列分析に基づく多チャネル補聴器システム2020
- Author(s)
  宇根昌和, 久保優騎, 高宗典玄, 北村大地, 猿渡洋, 牧野昭二
- Organizer
  日本音響学会 2020年春季研究発表会
[Presentation] 独立深層学習行列分析におけるマイクロホン毎及び音源毎の座標降下法に基づく分離行列更新法の周波数別自動選択法2020
- Author(s)
  牧島直輝, 高宗典玄, 北村大地, 猿渡洋, 高橋祐, 近藤多伸
- Organizer
  日本音響学会 2020年春季研究発表会
[Presentation] ランク制約付き空間共分散行列推定法に基づく拡散性雑音存在下でのブラインド複数方向性音源分離2020
- Author(s)
  久保優騎, 高宗典玄, 北村大地, 猿渡洋
- Organizer
  日本音響学会 2020年春季研究発表会
[Presentation] リフティングスキームによる離散ウェーブレット変換を導入した深層ニューラルネットに基づく時間領域音源分離2020
- Author(s)
  小塚詩穂里, 中村友彦, 猿渡洋
- Organizer
  日本音響学会 2020年春季研究発表会
[Presentation] 三重対角型周波数共分散行列を用いた独立半正定値テンソル分析によるブラインド音源分離2020
- Author(s)
  近藤樹, 高宗典玄, 北村大地, 猿渡洋, 池下林太郎, 中谷智広
- Organizer
  日本音響学会 2020年春季研究発表会
[Presentation] 同時対角化行列の事前分布を用いた高速多チャネル非負値行列因子分解によるブラインド音源分離2020
- Author(s)
  加茂佳吾, 久保優騎, 高宗典玄, 北村大地, 猿渡洋, 高橋祐, 近藤多伸
- Organizer
  日本音響学会 2020年春季研究発表会
[Presentation] SMASHコーパス：ゲーム動画の後付け実況解説音声収録に基づく自発発話音声コーパス2020
- Author(s)
  齋藤佑樹, 高道慎之介, 猿渡洋
- Organizer
  日本音響学会 2020年春季研究発表会
[Presentation] 広帯域 DNN 音声合成のためのスペクトル包絡の GMM 近似2020
- Author(s)
  小口純矢, 高道慎之介, 猿渡洋, 嵯峨山茂樹
- Organizer
  日本音響学会 2020年春季研究発表会
[Presentation] ガウス過程に基づく場の計測のための推定・候補領域を独立に設定可能なセンサ配置法2020
- Author(s)
  西田智哉, 植野夏樹, 小山翔一, 猿渡洋
- Organizer
  電子情報通信学会技術研究報告
[Presentation] ニューラルネットワークとウェーブレット基底関数の同時学習に基づく多重解像度深層分析を用いた時間領域音源分離2020
- Author(s)
  小塚詩穂里, 中村友彦, 猿渡洋
- Organizer
  電子情報通信学会技術研究報告
[Presentation] 一般化Gauss 分布に基づく同時対角化制約付き多チャネルNMFを用いたブラインド音源分離2020
- Author(s)
  加茂佳吾, 久保優騎, 高宗典玄, 北村大地, 猿渡洋, 高橋祐, 近藤多伸
- Organizer
  電子情報通信学会技術研究報告
[Presentation] Efficient Full-Rank Spatial Covariance Estimation Using Independent Low-Rank Matrix Analysis for Blind Source Separation2019
- Author(s)
  Yuki Kubo, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari
- Organizer
  European Signal Processing Conference (EUSIPCO 2019)
- Int'l Joint Research
[Presentation] Column-wise update algorithm for independent deeply learned matrix analysis2019
- Author(s)
  Naoki Makishima, Norihiro Takamune,Daichi Kitamura, Hiroshi Saruwatari, Yu Takahashi, and Kazunobu Kondo
- Organizer
  International Congress on Acoustics (ICA 2019)
- Int'l Joint Research
[Presentation] Evaluation of multichannel hearing aid system using rank-constrained spatial covariance matrix estimation2019
- Author(s)
  Masakazu Une, Yuki Kubo, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari, and Shoji Makino
- Organizer
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2019)
- Int'l Joint Research
[Presentation] Robust Demixing Filter Update Algorithm Based on Microphone-wise Coordinate Descent for Independent Deeply Learned Matrix Analysis2019
- Author(s)
  Naoki Makishima, Norihiro Takamune, Daichi Kitamura, Hiroshi Saruwatari, Yu Takahashi, and Kazunobu Kondo
- Organizer
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2019)
- Int'l Joint Research
[Presentation] Acceleration of rank-constrained spatial covariance matrix estimation for blind speech extraction2019
- Author(s)
  Yuki Kubo, Norihiro Takamune, Daichi Kitamura, and Hiroshi Saruwatari
- Organizer
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2019)
- Int'l Joint Research
[Presentation] ランク制約付き空間共分散モデル推定を用いた多チャネル補聴器システムの評価2019
- Author(s)
  宇根昌和, 久保優騎, 高宗典玄, 北村大地, 猿渡洋, 牧野昭二
- Organizer
  日本音響学会 2019年秋季研究発表会
[Presentation] 独立深層学習行列分析におけるマイクロホン毎の座標降下法に基づく分離行列更新2019
- Author(s)
  牧島直輝, 高宗典玄, 北村大地, 猿渡洋, 高橋祐, 近藤多伸
- Organizer
  日本音響学会 2019年秋季研究発表会
[Presentation] ランク制約付き空間共分散モデル推定法の逆行列展開による高速化2019
- Author(s)
  久保優騎, 高宗典玄, 北村大地, 猿渡洋
- Organizer
  日本音響学会 2019年秋季研究発表会
[Presentation] 多変量複素Student's t 分布に基づく独立半正定値テンソル分析によるブラインド音源分離2019
- Author(s)
  近藤樹, 高宗典玄, 北村大地, 猿渡洋, 池下林太郎, 中谷智広
- Organizer
  日本音響学会 2019年秋季研究発表会
[Presentation] Haar 変換を導入した時間領域深層ニューラルネットに基づく音源分離2019
- Author(s)
  中村友彦, 猿渡洋
- Organizer
  電子情報通信学会技術研究報告
[Presentation] ブラインド音声抽出のための多変量複素一般化Gauss 分布に基づくランク制約付き空間共分散行列推定法及びその高速化2019
- Author(s)
  久保優騎, 高宗典玄, 北村大地, 猿渡洋
- Organizer
  電子情報通信学会技術研究報告
[Patent(Industrial Property Rights)] 音響解析装置、音響解析方法及び音響解析プログラム2019
- Inventor(s)
  猿渡洋、久保優騎、高宗典玄、北村大地
- Industrial Property Rights Holder
  猿渡洋、久保優騎、高宗典玄、北村大地
- Industrial Property Rights Type
  特許
- Industrial Property Number
  特願2019-220584

2019 Fiscal Year Annual Research Report

スモールデータ機械学習理論に基づく音響拡張現実感及び音コミュニケーション能力拡張

Principal Investigator

猿渡 洋 東京大学, 大学院情報理工学系研究科, 教授 (30324974)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Independent Deeply Learned Matrix Analysis for Determined Audio Source Separation2019

Author(s)

Journal Title

DOI

[Journal Article] Multichannel non-negative matrix factorization using banded spatial covariance matrices in wavenumber domain2019

Author(s)

Journal Title

DOI

[Journal Article] Independent low-rank matrix analysis based on time-variant sub-Gaussian source model for determined blind source separation2019

Author(s)

Journal Title

DOI

[Presentation] Region-to-region acoustic transfer function estimation with distributed sources and receivers based on kernel interpolation2020

Author(s)

Organizer

[Presentation] 基底共有型半教師あり独立低ランク行列分析に基づく多チャネル補聴器システム2020

Author(s)

Organizer

[Presentation] 独立深層学習行列分析におけるマイクロホン毎及び音源毎の座標降下法に基づく分離行列更新法の周波数別自動選択法2020

Author(s)

Organizer

[Presentation] ランク制約付き空間共分散行列推定法に基づく拡散性雑音存在下でのブラインド複数方向性音源分離2020

Author(s)

Organizer

[Presentation] リフティングスキームによる離散ウェーブレット変換を導入した深層ニューラルネットに基づく時間領域音源分離2020

Author(s)

Organizer

[Presentation] 三重対角型周波数共分散行列を用いた独立半正定値テンソル分析によるブラインド音源分離2020

Author(s)

Organizer

[Presentation] 同時対角化行列の事前分布を用いた高速多チャネル非負値行列因子分解によるブラインド音源分離2020

Author(s)

Organizer

[Presentation] SMASHコーパス：ゲーム動画の後付け実況解説音声収録に基づく自発発話音声コーパス2020

Author(s)

Organizer

[Presentation] 広帯域 DNN 音声合成のためのスペクトル包絡の GMM 近似2020

Author(s)

Organizer

[Presentation] ガウス過程に基づく場の計測のための推定・候補領域を独立に設定可能なセンサ配置法2020

Author(s)

Organizer

[Presentation] ニューラルネットワークとウェーブレット基底関数の同時学習に基づく多重解像度深層分析を用いた時間領域音源分離2020

Author(s)

Organizer

[Presentation] 一般化Gauss 分布に基づく同時対角化制約付き多チャネルNMFを用いたブラインド音源分離2020

Author(s)

Organizer

[Presentation] Efficient Full-Rank Spatial Covariance Estimation Using Independent Low-Rank Matrix Analysis for Blind Source Separation2019

Author(s)

Organizer

[Presentation] Column-wise update algorithm for independent deeply learned matrix analysis2019

Author(s)

Organizer

[Presentation] Evaluation of multichannel hearing aid system using rank-constrained spatial covariance matrix estimation2019

Author(s)

Organizer

[Presentation] Robust Demixing Filter Update Algorithm Based on Microphone-wise Coordinate Descent for Independent Deeply Learned Matrix Analysis2019

Author(s)

Organizer

[Presentation] Acceleration of rank-constrained spatial covariance matrix estimation for blind speech extraction2019

Author(s)

Organizer

[Presentation] ランク制約付き空間共分散モデル推定を用いた多チャネル補聴器システムの評価2019

Author(s)

Organizer

[Presentation] 独立深層学習行列分析におけるマイクロホン毎の座標降下法に基づく分離行列更新2019

Author(s)

Organizer

[Presentation] ランク制約付き空間共分散モデル推定法の逆行列展開による高速化2019

Author(s)

Organizer

[Presentation] 多変量複素Student's t 分布に基づく独立半正定値テンソル分析によるブラインド音源分離2019

猿渡洋東京大学, 大学院情報理工学系研究科, 教授 (30324974)