空間アテンション機構に基づく新しい音響シーン識別手法の確立
Project/Area Number |
20K11880
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | University of Tsukuba |
Principal Investigator |
山田 武志 筑波大学, システム情報系, 准教授 (20312829)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2020: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
|
Keywords | 音響シーン識別 / 音響イベント検出 / 空間アテンション機構 / マイクロホンアレー / ニューラルネットワーク / 空間信号処理 / 空間情報 / アテンション機構 |
Outline of Research at the Start |
音響シーン識別において複数のマイクの録音信号を入力することにより、個々の音源の方向などの空間特徴を活用することが可能となり、識別性能のさらなる向上が期待できる。本研究の目的は、空間信号処理と識別器の融合による新しい音響シーン識別手法を確立することである。具体的には、音響シーンに存在する複数の音源の中からより重要な音源に自動的に焦点を当てる機能(空間アテンション機構)を有するニューラルネットワークを新たに開発する。
|
Outline of Annual Research Achievements |
音響シーン識別において複数のマイクの録音信号を入力することにより、音源の周波数特性などの音響特徴に加えて、個々の音源の方向などの空間特徴を活用することが可能となり、識別性能のさらなる向上が期待できる。本研究の目的は、空間信号処理と識別器の融合による新しい音響シーン識別手法を確立することである。具体的には、音響シーンに存在する複数の音源の中からより重要な音源に自動的に焦点を当てる機能(空間アテンション機構)を有するニューラルネットワークを新たに開発する。これにより、音源の方向や種類などの事前情報を必要とせず、識別に適した指向特性を入力信号から自動的に形成することが可能となる。
2022年度は、前年度に引き続き、空間アテンション機構に基づく音響シーン識別手法の開発に取り組んだ。主な研究成果を以下にまとめる。 (1)複数の空間フィルタ出力への自動重み付けに基づく識別手法の開発:これは、異なる指向特性を有する空間フィルタを複数個用意し、それぞれの空間フィルタ出力に対する重みを推定して識別する手法であり、前年度までに実験によりその有効性を示した。2022年度は識別性能のさらなる向上のために、重みの推定を短時間毎に実行する手法を検討した。 (2)空間フィルタの自動推定に基づく識別手法の開発:これは、空間フィルタそのものを推定し、推定した空間フィルタの出力を用いて識別する手法である。空間フィルタ生成器と識別器のネットワークを同時最適化するための損失関数を考案し、実験によってその有効性を検証した。その結果、学習の際に目的音の方向や教師信号といった事前情報を一切必要とせずに、注目すべき音を強調する空間フィルタを自動的に生成できることを示した。これらの研究成果を査読付き国際会議論文、査読なし国内会議論文として発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2022年度の計画として挙げた、空間アテンション機構に基づく音響シーン識別手法の開発と評価に取り組み、今後の性能向上の基礎となる知見や実験データを着実に得ることができた。また、その成果を査読あり国際会議論文、査読なし国内会議論文として発表した。提案手法のさらなる性能向上、及び提案手法の適用範囲の拡大を達成すべく、補助事業期間を1年間延長することとした。
|
Strategy for Future Research Activity |
前年度までに得た知見と実験データを用いて、引き続き提案手法の開発を行う。特に、空間フィルタの自動推定に基づく識別手法については、高残響下における識別性能の向上のために損失関数の改良を図る。また、音響シーン識別タスクのみならず、音声認識タスク等に提案手法を適用することを検討する。
|
Report
(3 results)
Research Products
(8 results)