Project/Area Number |
20H00613
|
Research Category |
Grant-in-Aid for Scientific Research (A)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Medium-sized Section 61:Human informatics and related fields
|
Research Institution | Tokyo Metropolitan University |
Principal Investigator |
Nobutaka Ono 東京都立大学, システムデザイン研究科, 教授 (80334259)
|
Co-Investigator(Kenkyū-buntansha) |
須山 章子 (荒木章子) 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 主幹研究員 (30396212)
井本 桂右 同志社大学, 理工学部, 准教授 (90802116)
塩田 さやか 東京都立大学, システムデザイン研究科, 准教授 (90705039)
宮崎 亮一 徳山工業高等専門学校, 情報電子工学科, 准教授 (40734728)
貴家 仁志 東京都立大学, システムデザイン研究科, 教授 (40157110)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥45,240,000 (Direct Cost: ¥34,800,000、Indirect Cost: ¥10,440,000)
Fiscal Year 2023: ¥9,620,000 (Direct Cost: ¥7,400,000、Indirect Cost: ¥2,220,000)
Fiscal Year 2022: ¥10,530,000 (Direct Cost: ¥8,100,000、Indirect Cost: ¥2,430,000)
Fiscal Year 2021: ¥10,530,000 (Direct Cost: ¥8,100,000、Indirect Cost: ¥2,430,000)
Fiscal Year 2020: ¥14,560,000 (Direct Cost: ¥11,200,000、Indirect Cost: ¥3,360,000)
|
Keywords | 分散マイクロホンアレイ / 分散音響センシング / 音声認識 / 音響シーン認識 / 音源分離 / 同期 / 音光変換 / ブリンキー / 非同期 |
Outline of Research at the Start |
本研究の目的は、複数録音機器を広範囲に配置し、分散音響センシングと非同期時系列モデリングにより、音声認識、音響シーン認識の性能を格段に向上することである。具体的な応用には、1)会議議事録の作成、実環境会話分析などオフライン処理可能なもの、2)セキュリティ、異常検出などリアルタイム処理が必要なものの2つに大別されるが、技術的には両方に共通する課題も多い。よって本研究ではこれらを、A) 複数機器のブラインド同期と音声認識応用、B) 音光変換センサを併用したマルチモーダルセンシング、C) 音響シーン認識応用の3つの研究トラックに整理し、研究を進める。
|
Outline of Final Research Achievements |
In this study, we developed efficient algorithms for high-precision time difference estimation and sampling frequency mismatch estimation and compensation as techniques for blindly synchronizing asynchronous signals. Additionally, we extended these techniques to applications such as acoustic object cancellers and impulse response estimation under sampling frequency variations. For multimodal acoustic sensing using sound-to-light conversion, we constructed various purpose-specific methods, including not only traditional intensity conversion but also melody visualization, speech estimation using small-scale DNNs, sparse spectrum reconstruction based on compressed sensing, and optimization for acoustic scene recognition through end-to-end learning. We also confirmed the effectiveness of spatial features derived from distributed sensing for acoustic scene recognition.
|
Academic Significance and Societal Importance of the Research Achievements |
マイクロホンを分散配置し音響信号処理を行うには、従来は厳密な時間同期が必要であり、有線接続は煩雑な配線を、無線の利用は大きな帯域幅を必要とするなどの困難があった。これに対し本研究は、我々の身の回りにあるスマートフォン、モバイル端末などの複数の録音機器を観測信号のみから同期する手法を確立した。これにより分散録音機器をアレイ信号処理、具体的には音源分離、音源強調,空間情報の取得などに活用することが可能となった。これらは遠隔音声認識や音響シーン認識の性能向上に大きく貢献する。また音光変換とビデオカメラを用いた音響分散センシングの独自の枠組みを進展させ、音響シーン認識の新しい方向性を提示できた。
|