2021 Fiscal Year Annual Research Report
あらゆる音の定位・分離・分類のためのユニバーサル音響理解モデル
Project/Area Number |
20K21813
|
Research Institution | Kyoto University |
Principal Investigator |
吉井 和佳 京都大学, 情報学研究科, 准教授 (20510001)
|
Project Period (FY) |
2020-07-30 – 2022-03-31
|
Keywords | 音響信号処理 / 音源分離 / 残響除去 |
Outline of Annual Research Achievements |
2021年度は、これまで培ってきた、音源モデルと空間モデルを統合したユニバーサル音響生成モデルの定式化・推論法を洗練するとともに、音声認識との統合や音楽データ解析への応用に取り組んだ。具体的には、まず、音源数が未知の環境下において、深層音源モデルの生成モデルとしてガンマ過程を導入することにより、観測データの複雑さに応じて適切な個数の音源を推定可能な深層ノンパラメトリックベイズ音響生成モデルを考案した。また、残響に対する頑健性を控除するため、音響生成モデルにおいて、複素ガウス分布の代わりに音源の特性に応じた裾の重さを持つ複素安定分布を用いることにより、同時的ブラインド音源分離・残響除去法の性能改善に成功した。さらに、多チャネルスペクトログラムの深層生成モデルに対し、多チャネル音源分離のための深層推論モデルを導入することでVAEを構成し、両モデルを一挙に教師なし学習することを可能にした。これにより、高価なペアデータを用いずに、高速なオンライン推論を行う基礎技術を確立した。実際似、一連の基礎技術をもとに、音声強調と音声認識を統合したリアルタイム環境理解システムの開発にも着手した。音声データ解析以外への応用としては、未知の楽器も取り扱うことができる楽器音のユニバーサルな音源モデルとして、変分自己符号化器 (VAE) を用いて、楽器音を音高と音色とを潜在状態にもつ楽器音スペクトログラムの生成モデルを学習する方法を考案した。
|