音響シーン識別において複数のマイクの録音信号を入力することにより、音源の周波数特性などの音響特徴に加えて、個々の音源の方向などの空間特徴を活用することが可能となり、識別性能のさらなる向上が期待できる。本研究の目的は、空間信号処理と識別器の融合による新しい音響シーン識別手法を確立することである。 2023年度は、前年度に引き続き、空間アテンション機構に基づく音響シーン識別手法の開発に取り組んだ。主な研究成果を以下にまとめる。 (1)複数の空間フィルタ出力への自動重み付けに基づく識別手法の開発:これは、異なる指向特性を有する空間フィルタを複数個用意し、それぞれの空間フィルタ出力に対する重みを推定して識別する手法であり、前年度までに実験によりその有効性を示した。2023年度は識別性能のさらなる向上のために、時間アテンション機構を併用する手法を検討した。 (2)空間フィルタの自動推定に基づく識別手法の開発:これは、空間フィルタそのものを推定し、推定した空間フィルタの出力を用いて識別する手法であり、前年度までに実験によりその有効性を示した。2023年度は残響環境における性能低下の問題に対処するために、周波数領域の空間フィルタを用いる手法、無響室環境での事前学習モデルをドメイン適応する手法を検討し、残響環境においても適切な空間フィルタを生成できることを確認した。これらの研究成果を査読なし国内会議論文として発表した。 本研究では補助事業期間全体を通じて、空間アテンション機構という新しいアイデアを実現すべく、上記(1)(2)の手法を開発し、音源の方向や種類などの事前情報を必要とせず、識別に適した指向特性を入力信号から自動的に選択・形成できることを示した。本研究の独自性は、空間信号処理と識別器の融合により片方のみでは困難な機能を実現するという点にあり、今後は新しい研究分野として切り開くことを目指す。
|