2020 Fiscal Year Annual Research Report
スモールデータ機械学習理論に基づく音響拡張現実感及び音コミュニケーション能力拡張
Project/Area Number |
19H01116
|
Research Institution | The University of Tokyo |
Principal Investigator |
猿渡 洋 東京大学, 大学院情報理工学系研究科, 教授 (30324974)
|
Co-Investigator(Kenkyū-buntansha) |
北村 大地 香川高等専門学校, 電気情報工学科, 助教 (40804745)
牧野 昭二 筑波大学, システム情報系, 教授 (60396190)
小山 翔一 東京大学, 大学院情報理工学系研究科, 講師 (80734459)
高道 慎之介 東京大学, 大学院情報理工学系研究科, 助教 (90784330)
中村 友彦 東京大学, 大学院情報理工学系研究科, 特任助教 (50866308)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | スモールデータ / 機械学習 / 音響拡張現実感 |
Outline of Annual Research Achievements |
(1)センシング・解析レイヤー:ILRMAを時変複素一般化ガウス分布へ拡張し、その有効性を定量化した。特に劣ガウス分布への拡張を提案し、その音楽信号分離への効果を様々な実験によって検証した。またIDLMAに関しては、時変複素スチューデントt分布・一般化ガウス分布音源生成確率モデルを基礎とする新しいIDLMAを導出し、それらを定量的に評価した。 (2)時空間情報再構成レイヤー:従来の両耳再現の問題として、頭部形状の個人性の問題がある。昨年度に引き続き、これを両耳統計モデルとしてモデル化し、その汎用性に関して検討を行った。また、前レイヤーのブラインド/半教師有り信号分解は基本的にランク1空間モデルと呼ばれるものであり、後段レイヤーへの応用を考えると無数の拡散性音源・雑音が存在する場合を考慮する必要がある(これはフルランク空間モデル推定問題と呼ばれる)。これを高精度かつ高速に実装するため、ILRMAで求められた雑音ランク1空間モデルをMajorization-Minimizationアルゴリズムによる尤度最大化によってフルランクへ拡張する理論を提案し、実環境データで評価を行った。その結果、従来のフルランク音源分離法よりも高速かつ高精度な分離を実現できた。 (3)ユーザインターフェイスレイヤー:直感的な声質・イントネーション制御機能を備えたDNN音声変換技術を構築するため、従来のDNNが要求するような教師有り学習用ビッグデータをどこまでスモールなものに出来るかを検証した。特に、音響尤度に基づくサブワード分割法を用いた教師無し音声合成やスペクトルのGMM近似に基づく音声合成の導入を行い、それらの有効性を定量化できた。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
全てのレイヤーについて目標を既に達成している。また、特筆すべき点として、時空間情報再構成レイヤーにおいて、その最適化アルゴリズムの更なる高速化として、MMアルゴリズムを更に発展させたMajorization-Equalization (ME) アルゴリズムに基づく手法の開発も一部着手・実装しており、当初の計画以上に進展していると言える。
|
Strategy for Future Research Activity |
(1)センシング・解析レイヤー:昨年度に検討した時変複素スチューデントt分布・一般化ガウス分布音源生成確率モデルを基礎とするIDLMAに関し、その音源モデルの学習を半教師有り問題へ拡張する。また音源モデルに事前分布を仮定し、そのパラメータも深層学習で推論する経験ベイズの枠組みを導入する。それらを定量的に評価する。 (2)時空間情報再構成レイヤー:無数の拡散性音源・雑音が存在する場合を考慮するため、フルランク空間モデル推定問題を考える。今後は、これをより高精度かつ高速に実装するため、ILRMAで求められた雑音ランク1空間モデルをMajorization-Equalization (ME) アルゴリズムによる尤度最大化によってフルランクへ拡張する理論を構築し、実環境データで評価を行う。特に従来のMEアルゴリズムにおいては単変量の場合しか検討されていないため、これを多変量(ベクトル変数)版へ拡張することも検討する。 (3)ユーザインターフェイスレイヤー:従来のDNNが要求するような教師有り学習用ビッグデータをどこまでスモールなものに出来るかを検証するため、言語モデルによる「先読み」を導入したインクリメンタルな処理を実装し、その有効性を定量化する。立体音響拡張現実感に関しては、カーネルリッジ回帰などを用いた音場の推定・補間理論を導入し、受聴者が任意の位置で所望の音像を得られる理論の検討を行い、シミュレーションによって有効性を検証する。
|
Research Products
(34 results)