2019 Fiscal Year Annual Research Report
スモールデータ機械学習理論に基づく音響拡張現実感及び音コミュニケーション能力拡張
Project/Area Number |
19H01116
|
Research Institution | The University of Tokyo |
Principal Investigator |
猿渡 洋 東京大学, 大学院情報理工学系研究科, 教授 (30324974)
|
Co-Investigator(Kenkyū-buntansha) |
北村 大地 香川高等専門学校, 電気情報工学科, 助教 (40804745)
牧野 昭二 筑波大学, システム情報系, 教授 (60396190)
小山 翔一 東京大学, 大学院情報理工学系研究科, 講師 (80734459)
高道 慎之介 東京大学, 大学院情報理工学系研究科, 助教 (90784330)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | スモールデータ / 機械学習 / 音響拡張現実感 |
Outline of Annual Research Achievements |
(1)センシング・解析レイヤー:ILRMの生成モデルをより一般化するため、時変複素スチューデントt分布や時変複素一般化ガウス分布へ拡張し、その有効性をを実験によって確認した。実験結果より、わずかな優ガウス性(スパース性)の付与が分離性能に大きく貢献することが分かった。またこれに併せ、不特定多数マイク信号のシミュレーションデータベースを収録した。 (2)時空間情報再構成レイヤー:(2-a) 部形状の個人性を反映した両耳統計モデル:ユーザ毎に異なる両耳効果を両耳統計モデルとしてモデル化し、その汎用性に関してシミュレーション検討を行った。(2-b) フルランク空間相関モデルの高速推定及び劣決定問題への拡張:フルランク空間モデル推定問題を効率的に解決するため、ILRMAで求められた雑音ランク1空間モデルをExpectation-Maximization (EM)アルゴリズムによる尤度最大化によってフルランクへ拡張する理論を構築し、その有効性をシミュレーション実験によって実証した。 (3)ユーザインターフェイスレイヤー:統計的声質変換による音声拡張現実感:補聴器等の音コミュニケーション能力拡張を想定する場合、ユーザがより聞き取りやすい音声を柔軟に生成するため、直感的な声質・イントネーション制御機能を備えたDNN音声変換技術を構築した。ここでは、従来のDNNが要求するような教師有り学習用ビッグデータをどこまでスモールなものに出来るかを検証するため、フーリエドメインGAN・GMMNによる学習正則化の導入及び位相生成DNNによる学習データ削減やHighwayNetの導入を行い、それらの有効性を実験によって定量化した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
全てのレイヤーについて目標を既に達成している。また、特筆すべき点として、センシング・解析レイヤーにおいて、DNNとILRMAを融合させた独立深層学習行列分析(IDLMA)にも着手しており、既に成果が出始めている。また、時空間情報再構成レイヤーにおいても、その最適化アルゴリズムの更なる高速化として、EMアルゴリズムのみならず補助関数法に基づくアルゴリズムの開発も一部着手・実装しており、当初の計画以上に進展していると言える。
|
Strategy for Future Research Activity |
2020年度は以下の方策に従って研究を発展させる。 (1)センシング・解析レイヤー:時変複素一般化ガウス分布に関しては、特に劣ガウス分布への拡張は未踏の領域であり、その効果を様々な実験によって定量化する。半教師有りIDLMAに関しては、時変複素スチューデントt分布・一般化ガウス分布音源生成確率モデルを基礎とする新しいIDLMAを導出し、それらを定量的に評価する。 (2)時空間情報再構成レイヤー:フルランク空間相関モデルの高速推定及び劣決定問題への拡張に関し、本年度は、これをより高精度かつ高速に実装するため、ILRMAで求められた雑音ランク1空間モデルを補助関数法(Majorization-Minimizationアルゴリズム)による尤度最大化によってフルランクへ拡張する理論を構築し、実環境データで評価を行う。 (3)ユーザインターフェイスレイヤー:補聴器等の音コミュニケーション能力拡張を想定する場合、ユーザがより聞き取りやすい音声を柔軟に生成するため、直感的な声質・イントネーション制御機能を備えたDNN音声変換技術を構築する。ここでは、従来のDNNが要求するような教師有り学習用ビッグデータをどこまでスモールなものに出来るかを検証するため、音響尤度に基づくサブワード分割法を用いた教師無し音声合成やスペクトルのGMM近似に基づく音声合成の導入を行い、それらの有効性を定量化する。
|
Research Products
(27 results)