• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Annual Research Report

スモールデータ機械学習理論に基づく音響拡張現実感及び音コミュニケーション能力拡張

Research Project

Project/Area Number 19H01116
Research InstitutionThe University of Tokyo

Principal Investigator

猿渡 洋  東京大学, 大学院情報理工学系研究科, 教授 (30324974)

Co-Investigator(Kenkyū-buntansha) 北村 大地  香川高等専門学校, 電気情報工学科, 講師 (40804745)
中村 友彦  東京大学, 大学院情報理工学系研究科, 特任助教 (50866308)
牧野 昭二  早稲田大学, 理工学術院(情報生産システム研究科・センター), 特任教授 (60396190)
小山 翔一  東京大学, 大学院情報理工学系研究科, 講師 (80734459)
高道 慎之介  東京大学, 大学院情報理工学系研究科, 助教 (90784330)
Project Period (FY) 2019-04-01 – 2023-03-31
Keywordsスモールデータ / 機械学習 / 音響拡張現実感
Outline of Annual Research Achievements

(1)センシング・解析レイヤー:2021年度までに提案した事前分布仮定型IDLMAに関し、そのパラメータも深層学習で推論する経験ベイズスキームを実データによって評価した。またそれを教師有りモデルと教師無しモデルの混合で表現する半教師有り(Product of Priors: PoP)型IDLMAへ拡張し、定量的な評価を行った。
(2)時空間情報再構成レイヤー:無数の拡散性音源・雑音が存在する場合を考慮するため、フルランク空間モデル推定問題を拡張した。特に2021年度までに提案したILRMAで求められた雑音ランク1空間モデルをフルランクへ拡張する理論に関し、従来のMajorization-Equalization (ME) アルゴリズムにおいては単変量の場合しか検討されていないため、これを多変量(ベクトル変数)版へ拡張した。またその有効性を実データを用いて確認した。
(3)ユーザインターフェイスレイヤー:本レイヤーの最終出力となる立体音響拡張現実感に関しては、カーネルリッジ回帰などを用いた音場の推定・補間理論を導入し、受聴者が任意の位置で所望の音像を得られる理論の検討を行い、シミュレーションによって有効性を検証した。
以上の全てのレイヤーについて目標を既に達成している。また当初の研究計画以上の理論的貢献として、教師有りと教師無し音源モデルを融合したILRMA、世界で初の多変量MEアルゴリズムの発見、言語モデル先読みを導入したインクリメンタルな音声合成処理、などが挙げられる。これらの成果は学術的にも高く評価されており、複数の論文賞や奨励賞を受賞した。

Research Progress Status

令和4年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

令和4年度が最終年度であるため、記入しない。

  • Research Products

    (18 results)

All 2023 2022

All Journal Article (3 results) (of which Peer Reviewed: 2 results,  Open Access: 2 results) Presentation (15 results) (of which Int'l Joint Research: 7 results,  Invited: 3 results)

  • [Journal Article] Noise suppression using beamformer and transfer-function-gain nonnegative matrix factorization with distributed stereo microphones2023

    • Author(s)
      Yutaro Matsui, Shoji Makino, Nobutaka Ono, Takeshi Yamada
    • Journal Title

      Journal of Signal Processing

      Volume: vol. 27 Pages: 1-6

    • DOI

      10.2299/jsp.27.1

    • Peer Reviewed / Open Access
  • [Journal Article] Deficient-basis-complementary rank-constrained spatial covariance matrix estimation based on multivariate generalized Gaussian distribution for blind speech extraction2022

    • Author(s)
      Yuto Kondo, Yuki Kubo, Norihiro Takamune , Daichi Kitamura, and Hiroshi Saruwatari
    • Journal Title

      EURASIP Journal on Advances in Signal Processing

      Volume: 88(2022) Pages: 24pages

    • DOI

      10.1186/s13634-022-00905-z

    • Peer Reviewed / Open Access
  • [Journal Article] Region-to-Region Kernel Interpolation of Acoustic Transfer Functions Constrained by Physical Properties2022

    • Author(s)
      Juliano G. C. Ribeiro , Natsuki Ueno , Shoichi Koyama , Hiroshi Saruwatari
    • Journal Title

      IEEE/ACM Transactions on Audio, Speech, and Language Processing

      Volume: vol. 30 Pages: 2944-2954

    • DOI

      10.1109/TASLP.2022.3201368

  • [Presentation] 日本語音声合成におけるアクセント句韻律特徴量の表現と予測2023

    • Author(s)
      佐藤 匡紀,高道 慎之介,猿渡 洋
    • Organizer
      第9回 音声・音響・信号処理ワークショップ(SPEASIP)
  • [Presentation] 多チャネル音源分離のための独立低ランク行列分析に対するスペクトログラム無矛盾性に基づく正則化項の設計2023

    • Author(s)
      三澤 颯大,高宗 典玄,矢田部 浩平,北村 大地,猿渡 洋
    • Organizer
      第9回 音声・音響・信号処理ワークショップ(SPEASIP)
  • [Presentation] vTTS: visual-text to speech2023

    • Author(s)
      Yoshifumi Nakano, Takaaki Saeki, Shinnosuke Takamichi, Katsuhito Sudoh, Hiroshi Saruwatari
    • Organizer
      the 2022 IEEE Spoken Language Technology Workshop (IEEE SLT 2022)
    • Int'l Joint Research
  • [Presentation] REGION-TO-REGION KERNEL INTERPOLATION OF ACOUSTIC TRANSFER FUNCTION WITH DIRECTIONAL WEIGHTING2022

    • Author(s)
      Juliano G. C. Ribeiro, Shoichi Koyama, Hiroshi Saruwatari
    • Organizer
      The 47th International Conference on Acoustics, Speech, and Signal Processing (ICASSP2022)
    • Int'l Joint Research
  • [Presentation] SPATIAL ACTIVE NOISE CONTROL BASED ON INDIVIDUAL KERNEL INTERPOLATION OF PRIMARY AND SECONDARY SOUND FIELDS2022

    • Author(s)
      Kazuyuki Arikawa, Shoichi Koyama, and Hiroshi Saruwatari
    • Organizer
      The 47th International Conference on Acoustics, Speech, and Signal Processing (ICASSP2022)
    • Int'l Joint Research
  • [Presentation] Hyperbolic Timbre Embedding for Musical Instrument Sound Synthesis Based on Variational Autoencoders2022

    • Author(s)
      Futa Nakashima, Tomohiko Nakamura, Norihiro Takamune, Satoru Fukayama, and Hiroshi Saruwatari
    • Organizer
      Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2022 (APSIPA ASC 2022)
    • Int'l Joint Research / Invited
  • [Presentation] Accelerating online algorithm using geometrically constrained independent vector analysis with iterative source steering2022

    • Author(s)
      Kana Goto, Tetsuya Ueda, Li Li, Takeshi Yamada, Shoji Makino
    • Organizer
      Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2022 (APSIPA ASC 2022)
    • Int'l Joint Research / Invited
  • [Presentation] 時間チャネル非負値行列因子分解を用いた被り音抑圧における初期値頑健性の比較2022

    • Author(s)
      溝渕悠朔, 北村大地, 中村友彦, 猿渡洋, 高橋祐, 近藤多伸
    • Organizer
      日本音響学会第148回(2022年秋季)研究発表会
  • [Presentation] 楽音合成のための Gauss 混合変分自己符号化器への定曲率非 Euclid 空間の導入と実験的比較2022

    • Author(s)
      中島 風太,中村 友彦,高宗 典玄,深山 覚,猿渡 洋
    • Organizer
      日本音響学会第148回(2022年秋季)研究発表会
  • [Presentation] 拡散性雑音をモデル化した独立低ランク行列分析における一般化固有値問題の解法に基づく高速化2022

    • Author(s)
      西田 光輝,高宗 典玄,北村 大地,猿渡 洋,池下 林太郎,中谷 智広
    • Organizer
      日本音響学会第148回(2022年秋季)研究発表会
  • [Presentation] J-MAC: Japanese multi-speaker audiobook corpus for speech synthesis2022

    • Author(s)
      Shinnosuke Takamichi, Wataru Nakata, Naoko Tanji, and Hiroshi Saruwatari
    • Organizer
      INTERSPEECH 2022
    • Int'l Joint Research
  • [Presentation] ブラインド音声抽出のためのランク制約付き空間共分散行列推定法における雑音欠落ランク空間基底選択に関する一考察2022

    • Author(s)
      西田 光輝,高宗 典玄,北村 大地,猿渡 洋
    • Organizer
      音学シンポジウム2022
  • [Presentation] 双曲空間への音色埋め込みを用いたガウス混合変分自己符号化器による楽音合成の検討2022

    • Author(s)
      中島 風太,中村 友彦,高宗 典玄,深山 覚,猿渡 洋
    • Organizer
      第134回音楽情報科学・第142回音声言語情報処理合同研究発表会
  • [Presentation] Geometrically constrained independent vector analysis with auxiliary function approach and iterative source steering2022

    • Author(s)
      Kana Goto, Tetsuya Ueda, Li Li, Takeshi Yamada, Shoji Makino
    • Organizer
      European Signal Processing Conference (EUSIPCO 2022)
    • Int'l Joint Research / Invited
  • [Presentation] 幾何学的制約付き独立ベクトル分析を用いたオンライン指向性音声強調のIterative Source Steering による高速化2022

    • Author(s)
      後藤加奈, 上田哲也, 李莉, 山田武志, 牧野昭二
    • Organizer
      日本音響学会第148回(2022年秋季)研究発表会

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi