2023 Fiscal Year Final Research Report
Acoustic scene classification based on spatial attention mechanism
Project/Area Number |
20K11880
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | University of Tsukuba |
Principal Investigator |
YAMADA Takeshi 筑波大学, システム情報系, 教授 (20312829)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | 音響シーン識別 / 空間アテンション機構 / ビームフォーマ / 空間フィルタ / ニューラルネットワーク / 損失関数 |
Outline of Final Research Achievements |
In order to improve the performance of acoustic scene classification that uses a beamformer as preprocessing, this study introduced a new idea of a spatial attention mechanism that automatically focuses on the sound of interest (useful for classification) among multiple sounds present in the acoustic scene. To realize this idea, we proposed a classification method based on automatic weighting of multiple spatial filter outputs and, as its extension, a classification method based on automatic estimation of spatial filters, and demonstrated their effectiveness through experiments.
|
Free Research Field |
音声・音響情報処理
|
Academic Significance and Societal Importance of the Research Achievements |
本研究成果の学術的独自性と創造性は、空間アテンション機構という新しいアイデアを実現した点にある。これにより、目的音方向などの事前情報を必要とせず、注目すべき音がどの音なのかを自動的に見つけると共に、それを強調するための空間フィルタを自動推定することが可能となった。これは信号処理技術と識別技術の有機的な統合によって成し得たものであり、音響シーン識別のみならず、雑音下音声認識などの他の様々なタスクへの展開が期待できる。
|