2023 年度研究成果報告書

分散音響センシングと非同期時系列モデリングに基づく音声・音響シーン認識の革新

研究課題

PDF

研究課題/領域番号	20H00613
研究種目	基盤研究(A)
配分区分	補助金
応募区分	一般
審査区分	中区分61:人間情報学およびその関連分野
研究機関	東京都立大学
研究代表者	小野順貴東京都立大学, システムデザイン研究科, 教授 (80334259)
研究分担者	須山章子 (荒木章子) 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 主幹研究員 (30396212) 井本桂右同志社大学, 理工学部, 准教授 (90802116) 塩田さやか東京都立大学, システムデザイン研究科, 准教授 (90705039) 宮崎亮一徳山工業高等専門学校, 情報電子工学科, 准教授 (40734728) 貴家仁志東京都立大学, システムデザイン研究科, 教授 (40157110)
研究期間 (年度)	2020-04-01 – 2024-03-31
キーワード	分散マイクロホンアレイ / 分散音響センシング / 音声認識 / 音響シーン認識 / 音源分離 / 同期 / 音光変換 / ブリンキー
研究成果の概要	本研究では、非同期信号をブラインドに同期する技術として、高精度時間差推定やサンプリング周波数ミスマッチ推定とその補償について、効率的なアルゴリズムを構築し、また、音響オブジェクトキャンセラーやサンプリング周波数変動下でのインパルス応答推定などに展開した。音光変換を用いたマルチモーダルな音響センシングとしては、従来の強度変換だけでなく、メロディの可視化、小規模ＤＮＮによる発話推定、圧縮センシングに基づくスパーススペクトルの復元の他、end-to-end学習による音響シーン認識のための最適化など、目的に応じた手法を構築した。分散センシングに基づく空間特徴量の音響シーン認識に対する有効性も確認した。
自由記述の分野	音響信号処理
研究成果の学術的意義や社会的意義	マイクロホンを分散配置し音響信号処理を行うには、従来は厳密な時間同期が必要であり、有線接続は煩雑な配線を、無線の利用は大きな帯域幅を必要とするなどの困難があった。これに対し本研究は、我々の身の回りにあるスマートフォン、モバイル端末などの複数の録音機器を観測信号のみから同期する手法を確立した。これにより分散録音機器をアレイ信号処理、具体的には音源分離、音源強調，空間情報の取得などに活用することが可能となった。これらは遠隔音声認識や音響シーン認識の性能向上に大きく貢献する。また音光変換とビデオカメラを用いた音響分散センシングの独自の枠組みを進展させ、音響シーン認識の新しい方向性を提示できた。