2021 Fiscal Year Annual Research Report
スモールデータ機械学習理論に基づく音響拡張現実感及び音コミュニケーション能力拡張
Project/Area Number |
19H01116
|
Research Institution | The University of Tokyo |
Principal Investigator |
猿渡 洋 東京大学, 大学院情報理工学系研究科, 教授 (30324974)
|
Co-Investigator(Kenkyū-buntansha) |
北村 大地 香川高等専門学校, 電気情報工学科, 講師 (40804745)
中村 友彦 東京大学, 大学院情報理工学系研究科, 特任助教 (50866308)
牧野 昭二 早稲田大学, 理工学術院(情報生産システム研究科・センター), 特任教授 (60396190)
小山 翔一 東京大学, 大学院情報理工学系研究科, 講師 (80734459)
高道 慎之介 東京大学, 大学院情報理工学系研究科, 助教 (90784330)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | スモールデータ / 機械学習 / 音響拡張現実感 |
Outline of Annual Research Achievements |
(1)センシング・解析レイヤー:2020年度までに検討した時変複素スチューデントt分布・一般化ガウス分布音源生成確率モデルを基礎とするIDLMAに関し、音源モデルに事前分布を仮定し、そのパラメータも深層学習で推論する経験ベイズの枠組みを導入した。また、提案手法の定量的な評価を行った。 (2)時空間情報再構成レイヤー:無数の拡散性音源・雑音が存在する場合を考慮するため、フルランク空間モデル推定問題を想定した。これをより高精度かつ高速に実装するため、ILRMAで求められた雑音ランク1空間モデルをMajorization-Equalization (ME) アルゴリズムによる尤度最大化によってフルランクへ拡張する理論を構築し、実環境データで評価を行った。 (3)ユーザインターフェイスレイヤー:音声合成に関し、従来のDNNが要求するような教師有り学習用ビッグデータをどこまでスモールなものに出来るかを検証するため、言語モデルによる「先読み」を導入したインクリメンタルな処理を実装し、その有効性を定量化した(本成果はIEICE論文誌に掲載され、2021年度の論文賞を受賞した)。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
全てのレイヤーについて目標を既に達成している。また、特筆すべき点として、時空間情報再構成レイヤーにおいて、その最適化アルゴリズムの更なる高速化として、従来のMMアルゴリズムを更に発展させたME アルゴリズムに基づく手法の開発及び評価が完了しており、当初の計画以上に進展していると言える。
|
Strategy for Future Research Activity |
(1)センシング・解析レイヤー:2021年度までに提案した事前分布仮定型IDLMAに関し、学習データとテストデータの差異を吸収するため、それを教師有りモデルと教師無しモデルの混合で表現する半教師有り(Product of Priors: PoP)型IDLMAへ拡張する。 (2)時空間情報再構成レイヤー:無数の拡散性音源・雑音が存在する場合を考慮するため、フルランク空間モデル推定問題の解法を拡張する。特に今までのMEアルゴリズムにおいては単変量の場合しか検討されていないため、これを多変量(ベクトル変数)版へ拡張し、その有効性を確認する。 (3)ユーザインターフェイスレイヤー:本レイヤーの最終出力となる立体音響拡張現実感に関して、より柔軟な音場推定理論を構築し、その評価を行う。特に、カーネルリッジ回帰などを用いた音場の推定・補間理論を導入し、受聴者が任意の位置で所望の音像を得られる理論の検討を行う。
|
Research Products
(25 results)