2022 Fiscal Year Annual Research Report
スモールデータ機械学習理論に基づく音響拡張現実感及び音コミュニケーション能力拡張
Project/Area Number |
19H01116
|
Research Institution | The University of Tokyo |
Principal Investigator |
猿渡 洋 東京大学, 大学院情報理工学系研究科, 教授 (30324974)
|
Co-Investigator(Kenkyū-buntansha) |
北村 大地 香川高等専門学校, 電気情報工学科, 講師 (40804745)
中村 友彦 東京大学, 大学院情報理工学系研究科, 特任助教 (50866308)
牧野 昭二 早稲田大学, 理工学術院(情報生産システム研究科・センター), 特任教授 (60396190)
小山 翔一 東京大学, 大学院情報理工学系研究科, 講師 (80734459)
高道 慎之介 東京大学, 大学院情報理工学系研究科, 助教 (90784330)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | スモールデータ / 機械学習 / 音響拡張現実感 |
Outline of Annual Research Achievements |
(1)センシング・解析レイヤー:2021年度までに提案した事前分布仮定型IDLMAに関し、そのパラメータも深層学習で推論する経験ベイズスキームを実データによって評価した。またそれを教師有りモデルと教師無しモデルの混合で表現する半教師有り(Product of Priors: PoP)型IDLMAへ拡張し、定量的な評価を行った。 (2)時空間情報再構成レイヤー:無数の拡散性音源・雑音が存在する場合を考慮するため、フルランク空間モデル推定問題を拡張した。特に2021年度までに提案したILRMAで求められた雑音ランク1空間モデルをフルランクへ拡張する理論に関し、従来のMajorization-Equalization (ME) アルゴリズムにおいては単変量の場合しか検討されていないため、これを多変量(ベクトル変数)版へ拡張した。またその有効性を実データを用いて確認した。 (3)ユーザインターフェイスレイヤー:本レイヤーの最終出力となる立体音響拡張現実感に関しては、カーネルリッジ回帰などを用いた音場の推定・補間理論を導入し、受聴者が任意の位置で所望の音像を得られる理論の検討を行い、シミュレーションによって有効性を検証した。 以上の全てのレイヤーについて目標を既に達成している。また当初の研究計画以上の理論的貢献として、教師有りと教師無し音源モデルを融合したILRMA、世界で初の多変量MEアルゴリズムの発見、言語モデル先読みを導入したインクリメンタルな音声合成処理、などが挙げられる。これらの成果は学術的にも高く評価されており、複数の論文賞や奨励賞を受賞した。
|
Research Progress Status |
令和4年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和4年度が最終年度であるため、記入しない。
|
Research Products
(18 results)
-
-
-
-
-
-
[Presentation] vTTS: visual-text to speech2023
Author(s)
Yoshifumi Nakano, Takaaki Saeki, Shinnosuke Takamichi, Katsuhito Sudoh, Hiroshi Saruwatari
Organizer
the 2022 IEEE Spoken Language Technology Workshop (IEEE SLT 2022)
Int'l Joint Research
-
-
-
-
-
-
-
-
-
-
-
-