スモールデータ機械学習理論に基づく音響拡張現実感及び音コミュニケーション能力拡張
Project/Area Number |
19H01116
|
Research Category |
Grant-in-Aid for Scientific Research (A)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Medium-sized Section 61:Human informatics and related fields
|
Research Institution | The University of Tokyo |
Principal Investigator |
猿渡 洋 東京大学, 大学院情報理工学系研究科, 教授 (30324974)
|
Co-Investigator(Kenkyū-buntansha) |
北村 大地 香川高等専門学校, 電気情報工学科, 助教 (40804745)
牧野 昭二 筑波大学, システム情報系, 教授 (60396190)
小山 翔一 東京大学, 大学院情報理工学系研究科, 講師 (80734459)
高道 慎之介 東京大学, 大学院情報理工学系研究科, 助教 (90784330)
中村 友彦 東京大学, 大学院情報理工学系研究科, 特任助教 (50866308)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Project Status |
Granted (Fiscal Year 2020)
|
Budget Amount *help |
¥44,850,000 (Direct Cost: ¥34,500,000、Indirect Cost: ¥10,350,000)
Fiscal Year 2020: ¥10,920,000 (Direct Cost: ¥8,400,000、Indirect Cost: ¥2,520,000)
Fiscal Year 2019: ¥12,090,000 (Direct Cost: ¥9,300,000、Indirect Cost: ¥2,790,000)
|
Keywords | 音源分離 / 信号処理 / スモールデータ / 機械学習 / 音響拡張現実感 |
Outline of Research at the Start |
本申請では、スモールデータ機械学習理論に基づく新しい音響情報処理の確立、及びその柔軟かつ高品質な音メディアバーチャルリアリティ(VR)・拡張現実感(AR)システムへの応用に関して研究を行う。具体的には、「なるべく少ない事前情報から複雑な音情景を統計的な独立成分に分解し、加工・拡張再現する」という総合的音メディアコンテンツ入出力システムの構築を主目的とする。また、このシステムの実証的アプリケーションとして、「音メディアVR・AR」を想定し、不特定多数の音波動センサが一致団結してユーザの受聴を助ける音コミュニケーション能力拡張システムの実現を通じて、ライフイノベーションへ貢献する。
|
Outline of Annual Research Achievements |
(1)センシング・解析レイヤー:ILRMの生成モデルをより一般化するため、時変複素スチューデントt分布や時変複素一般化ガウス分布へ拡張し、その有効性をを実験によって確認した。実験結果より、わずかな優ガウス性(スパース性)の付与が分離性能に大きく貢献することが分かった。またこれに併せ、不特定多数マイク信号のシミュレーションデータベースを収録した。 (2)時空間情報再構成レイヤー:(2-a) 部形状の個人性を反映した両耳統計モデル:ユーザ毎に異なる両耳効果を両耳統計モデルとしてモデル化し、その汎用性に関してシミュレーション検討を行った。(2-b) フルランク空間相関モデルの高速推定及び劣決定問題への拡張:フルランク空間モデル推定問題を効率的に解決するため、ILRMAで求められた雑音ランク1空間モデルをExpectation-Maximization (EM)アルゴリズムによる尤度最大化によってフルランクへ拡張する理論を構築し、その有効性をシミュレーション実験によって実証した。 (3)ユーザインターフェイスレイヤー:統計的声質変換による音声拡張現実感:補聴器等の音コミュニケーション能力拡張を想定する場合、ユーザがより聞き取りやすい音声を柔軟に生成するため、直感的な声質・イントネーション制御機能を備えたDNN音声変換技術を構築した。ここでは、従来のDNNが要求するような教師有り学習用ビッグデータをどこまでスモールなものに出来るかを検証するため、フーリエドメインGAN・GMMNによる学習正則化の導入及び位相生成DNNによる学習データ削減やHighwayNetの導入を行い、それらの有効性を実験によって定量化した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
全てのレイヤーについて目標を既に達成している。また、特筆すべき点として、センシング・解析レイヤーにおいて、DNNとILRMAを融合させた独立深層学習行列分析(IDLMA)にも着手しており、既に成果が出始めている。また、時空間情報再構成レイヤーにおいても、その最適化アルゴリズムの更なる高速化として、EMアルゴリズムのみならず補助関数法に基づくアルゴリズムの開発も一部着手・実装しており、当初の計画以上に進展していると言える。
|
Strategy for Future Research Activity |
2020年度は以下の方策に従って研究を発展させる。 (1)センシング・解析レイヤー:時変複素一般化ガウス分布に関しては、特に劣ガウス分布への拡張は未踏の領域であり、その効果を様々な実験によって定量化する。半教師有りIDLMAに関しては、時変複素スチューデントt分布・一般化ガウス分布音源生成確率モデルを基礎とする新しいIDLMAを導出し、それらを定量的に評価する。 (2)時空間情報再構成レイヤー:フルランク空間相関モデルの高速推定及び劣決定問題への拡張に関し、本年度は、これをより高精度かつ高速に実装するため、ILRMAで求められた雑音ランク1空間モデルを補助関数法(Majorization-Minimizationアルゴリズム)による尤度最大化によってフルランクへ拡張する理論を構築し、実環境データで評価を行う。 (3)ユーザインターフェイスレイヤー:補聴器等の音コミュニケーション能力拡張を想定する場合、ユーザがより聞き取りやすい音声を柔軟に生成するため、直感的な声質・イントネーション制御機能を備えたDNN音声変換技術を構築する。ここでは、従来のDNNが要求するような教師有り学習用ビッグデータをどこまでスモールなものに出来るかを検証するため、音響尤度に基づくサブワード分割法を用いた教師無し音声合成やスペクトルのGMM近似に基づく音声合成の導入を行い、それらの有効性を定量化する。
|
Report
(2 results)
Research Products
(27 results)