2022 Fiscal Year Annual Research Report

スモールデータ機械学習理論に基づく音響拡張現実感及び音コミュニケーション能力拡張

Research Project

Project/Area Number	19H01116
Research Institution	The University of Tokyo
Principal Investigator	猿渡洋東京大学, 大学院情報理工学系研究科, 教授 (30324974)
Co-Investigator(Kenkyū-buntansha)	北村大地香川高等専門学校, 電気情報工学科, 講師 (40804745) 中村友彦東京大学, 大学院情報理工学系研究科, 特任助教 (50866308) 牧野昭二早稲田大学, 理工学術院(情報生産システム研究科・センター), 特任教授 (60396190) 小山翔一東京大学, 大学院情報理工学系研究科, 講師 (80734459) 高道慎之介東京大学, 大学院情報理工学系研究科, 助教 (90784330)
Project Period (FY)	2019-04-01 – 2023-03-31
Keywords	スモールデータ / 機械学習 / 音響拡張現実感
Outline of Annual Research Achievements	（１）センシング・解析レイヤー：2021年度までに提案した事前分布仮定型IDLMAに関し、そのパラメータも深層学習で推論する経験ベイズスキームを実データによって評価した。またそれを教師有りモデルと教師無しモデルの混合で表現する半教師有り（Product of Priors: PoP）型IDLMAへ拡張し、定量的な評価を行った。（２）時空間情報再構成レイヤー：無数の拡散性音源・雑音が存在する場合を考慮するため、フルランク空間モデル推定問題を拡張した。特に2021年度までに提案したILRMAで求められた雑音ランク1空間モデルをフルランクへ拡張する理論に関し、従来のMajorization-Equalization (ME) アルゴリズムにおいては単変量の場合しか検討されていないため、これを多変量（ベクトル変数）版へ拡張した。またその有効性を実データを用いて確認した。（３）ユーザインターフェイスレイヤー：本レイヤーの最終出力となる立体音響拡張現実感に関しては、カーネルリッジ回帰などを用いた音場の推定・補間理論を導入し、受聴者が任意の位置で所望の音像を得られる理論の検討を行い、シミュレーションによって有効性を検証した。以上の全てのレイヤーについて目標を既に達成している。また当初の研究計画以上の理論的貢献として、教師有りと教師無し音源モデルを融合したILRMA、世界で初の多変量MEアルゴリズムの発見、言語モデル先読みを導入したインクリメンタルな音声合成処理、などが挙げられる。これらの成果は学術的にも高く評価されており、複数の論文賞や奨励賞を受賞した。
Research Progress Status	令和4年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	令和4年度が最終年度であるため、記入しない。

Research Products
(18 results)

All 2023 2022

All Journal Article (3 results) (of which Peer Reviewed: 2 results, Open Access: 2 results) Presentation (15 results) (of which Int'l Joint Research: 7 results, Invited: 3 results)

[Journal Article] Noise suppression using beamformer and transfer-function-gain nonnegative matrix factorization with distributed stereo microphones2023
- Author(s)
  Yutaro Matsui, Shoji Makino, Nobutaka Ono, Takeshi Yamada
- Journal Title
  
  Journal of Signal Processing
  
  Volume: vol. 27 Pages: 1-6
- DOI
  10.2299/jsp.27.1
- Peer Reviewed / Open Access
[Journal Article] Deficient-basis-complementary rank-constrained spatial covariance matrix estimation based on multivariate generalized Gaussian distribution for blind speech extraction2022
- Author(s)
  Yuto Kondo, Yuki Kubo, Norihiro Takamune , Daichi Kitamura, and Hiroshi Saruwatari
- Journal Title
  
  EURASIP Journal on Advances in Signal Processing
  
  Volume: 88(2022) Pages: 24pages
- DOI
  10.1186/s13634-022-00905-z
- Peer Reviewed / Open Access
[Journal Article] Region-to-Region Kernel Interpolation of Acoustic Transfer Functions Constrained by Physical Properties2022
- Author(s)
  Juliano G. C. Ribeiro , Natsuki Ueno , Shoichi Koyama , Hiroshi Saruwatari
- Journal Title
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  Volume: vol. 30 Pages: 2944-2954
- DOI
  10.1109/TASLP.2022.3201368
[Presentation] 日本語音声合成におけるアクセント句韻律特徴量の表現と予測2023
- Author(s)
  佐藤匡紀，高道慎之介，猿渡洋
- Organizer
  第9回音声・音響・信号処理ワークショップ（SPEASIP）
[Presentation] 多チャネル音源分離のための独立低ランク行列分析に対するスペクトログラム無矛盾性に基づく正則化項の設計2023
- Author(s)
  三澤颯大，高宗典玄，矢田部浩平，北村大地，猿渡洋
- Organizer
  第9回音声・音響・信号処理ワークショップ（SPEASIP）
[Presentation] vTTS: visual-text to speech2023
- Author(s)
  Yoshifumi Nakano, Takaaki Saeki, Shinnosuke Takamichi, Katsuhito Sudoh, Hiroshi Saruwatari
- Organizer
  the 2022 IEEE Spoken Language Technology Workshop (IEEE SLT 2022)
- Int'l Joint Research
[Presentation] REGION-TO-REGION KERNEL INTERPOLATION OF ACOUSTIC TRANSFER FUNCTION WITH DIRECTIONAL WEIGHTING2022
- Author(s)
  Juliano G. C. Ribeiro, Shoichi Koyama, Hiroshi Saruwatari
- Organizer
  The 47th International Conference on Acoustics, Speech, and Signal Processing (ICASSP2022)
- Int'l Joint Research
[Presentation] SPATIAL ACTIVE NOISE CONTROL BASED ON INDIVIDUAL KERNEL INTERPOLATION OF PRIMARY AND SECONDARY SOUND FIELDS2022
- Author(s)
  Kazuyuki Arikawa, Shoichi Koyama, and Hiroshi Saruwatari
- Organizer
  The 47th International Conference on Acoustics, Speech, and Signal Processing (ICASSP2022)
- Int'l Joint Research
[Presentation] Hyperbolic Timbre Embedding for Musical Instrument Sound Synthesis Based on Variational Autoencoders2022
- Author(s)
  Futa Nakashima, Tomohiko Nakamura, Norihiro Takamune, Satoru Fukayama, and Hiroshi Saruwatari
- Organizer
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2022 (APSIPA ASC 2022)
- Int'l Joint Research / Invited
[Presentation] Accelerating online algorithm using geometrically constrained independent vector analysis with iterative source steering2022
- Author(s)
  Kana Goto, Tetsuya Ueda, Li Li, Takeshi Yamada, Shoji Makino
- Organizer
  Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2022 (APSIPA ASC 2022)
- Int'l Joint Research / Invited
[Presentation] 時間チャネル非負値行列因子分解を用いた被り音抑圧における初期値頑健性の比較2022
- Author(s)
  溝渕悠朔, 北村大地, 中村友彦, 猿渡洋, 高橋祐, 近藤多伸
- Organizer
  日本音響学会第148回(2022年秋季)研究発表会
[Presentation] 楽音合成のための Gauss 混合変分自己符号化器への定曲率非 Euclid 空間の導入と実験的比較2022
- Author(s)
  中島風太，中村友彦，高宗典玄，深山覚，猿渡洋
- Organizer
  日本音響学会第148回(2022年秋季)研究発表会
[Presentation] 拡散性雑音をモデル化した独立低ランク行列分析における一般化固有値問題の解法に基づく高速化2022
- Author(s)
  西田光輝，高宗典玄，北村大地，猿渡洋，池下林太郎，中谷智広
- Organizer
  日本音響学会第148回(2022年秋季)研究発表会
[Presentation] J-MAC: Japanese multi-speaker audiobook corpus for speech synthesis2022
- Author(s)
  Shinnosuke Takamichi, Wataru Nakata, Naoko Tanji, and Hiroshi Saruwatari
- Organizer
  INTERSPEECH 2022
- Int'l Joint Research
[Presentation] ブラインド音声抽出のためのランク制約付き空間共分散行列推定法における雑音欠落ランク空間基底選択に関する一考察2022
- Author(s)
  西田光輝，高宗典玄，北村大地，猿渡洋
- Organizer
  音学シンポジウム2022
[Presentation] 双曲空間への音色埋め込みを用いたガウス混合変分自己符号化器による楽音合成の検討2022
- Author(s)
  中島風太，中村友彦，高宗典玄，深山覚，猿渡洋
- Organizer
  第134回音楽情報科学・第142回音声言語情報処理合同研究発表会
[Presentation] Geometrically constrained independent vector analysis with auxiliary function approach and iterative source steering2022
- Author(s)
  Kana Goto, Tetsuya Ueda, Li Li, Takeshi Yamada, Shoji Makino
- Organizer
  European Signal Processing Conference (EUSIPCO 2022)
- Int'l Joint Research / Invited
[Presentation] 幾何学的制約付き独立ベクトル分析を用いたオンライン指向性音声強調のIterative Source Steering による高速化2022
- Author(s)
  後藤加奈, 上田哲也, 李莉, 山田武志, 牧野昭二
- Organizer
  日本音響学会第148回(2022年秋季)研究発表会

2022 Fiscal Year Annual Research Report

スモールデータ機械学習理論に基づく音響拡張現実感及び音コミュニケーション能力拡張

Principal Investigator

猿渡 洋 東京大学, 大学院情報理工学系研究科, 教授 (30324974)

Research Products

[Journal Article] Noise suppression using beamformer and transfer-function-gain nonnegative matrix factorization with distributed stereo microphones2023

Author(s)

Journal Title

DOI

[Journal Article] Deficient-basis-complementary rank-constrained spatial covariance matrix estimation based on multivariate generalized Gaussian distribution for blind speech extraction2022

Author(s)

Journal Title

DOI

[Journal Article] Region-to-Region Kernel Interpolation of Acoustic Transfer Functions Constrained by Physical Properties2022

Author(s)

Journal Title

DOI

[Presentation] 日本語音声合成におけるアクセント句韻律特徴量の表現と予測2023

Author(s)

Organizer

[Presentation] 多チャネル音源分離のための独立低ランク行列分析に対するスペクトログラム無矛盾性に基づく正則化項の設計2023

Author(s)

Organizer

[Presentation] vTTS: visual-text to speech2023

Author(s)

Organizer

[Presentation] REGION-TO-REGION KERNEL INTERPOLATION OF ACOUSTIC TRANSFER FUNCTION WITH DIRECTIONAL WEIGHTING2022

Author(s)

Organizer

[Presentation] SPATIAL ACTIVE NOISE CONTROL BASED ON INDIVIDUAL KERNEL INTERPOLATION OF PRIMARY AND SECONDARY SOUND FIELDS2022

Author(s)

Organizer

[Presentation] Hyperbolic Timbre Embedding for Musical Instrument Sound Synthesis Based on Variational Autoencoders2022

Author(s)

Organizer

[Presentation] Accelerating online algorithm using geometrically constrained independent vector analysis with iterative source steering2022

Author(s)

Organizer

[Presentation] 時間チャネル非負値行列因子分解を用いた被り音抑圧における初期値頑健性の比較2022

Author(s)

Organizer

[Presentation] 楽音合成のための Gauss 混合変分自己符号化器への定曲率非 Euclid 空間の導入と実験的比較2022

Author(s)

Organizer

[Presentation] 拡散性雑音をモデル化した独立低ランク行列分析における一般化固有値問題の解法に基づく高速化2022

Author(s)

Organizer

[Presentation] J-MAC: Japanese multi-speaker audiobook corpus for speech synthesis2022

Author(s)

Organizer

[Presentation] ブラインド音声抽出のためのランク制約付き空間共分散行列推定法における雑音欠落ランク空間基底選択に関する一考察2022

Author(s)

Organizer

[Presentation] 双曲空間への音色埋め込みを用いたガウス混合変分自己符号化器による楽音合成の検討2022

Author(s)

Organizer

[Presentation] Geometrically constrained independent vector analysis with auxiliary function approach and iterative source steering2022

Author(s)

Organizer

[Presentation] 幾何学的制約付き独立ベクトル分析を用いたオンライン指向性音声強調のIterative Source Steering による高速化2022

Author(s)

Organizer

猿渡洋東京大学, 大学院情報理工学系研究科, 教授 (30324974)