研究課題
本研究課題ではマイクロホンアレイを用いた多チャネル音響信号処理の実応用を見据え,分散配置されたデバイスを連携させ信号処理を行うアドホックアレイ信号処理,アレイ信号処理の低遅延化,さらにアレイ信号処理と音声認識の統合に取り組んできた.アドホックアレイ信号処理では,スマートフォンやタブレットPCといった電子機器ごとのサンプリング周波数のずれにより,通常のアレイでは定常になるマイク間の位相差が非定常になり,従来のアレイ信号処理技術がそのままでは適用できなくなるという課題がある.本年度は昨年度に引き続きサンプリング周波数のずれの推定・補償に取り組み,提案手法のマイク数・音源数・残響時間などに対する頑健性を調査し条件によらず提案手法が有効であることを確認した.また,会議における議事録作成やスマートスピーカのインターフェースへの応用を見据えて,アレイ信号処理と音声認識の統合にも取り組んだ.本年度はビームフォーミングだけではなくTF-GridNetという最先端の多チャネル音声強調・分離技術も検討し,雑音・残響を含む複数人の会話の認識において単語誤り率を既存技術の1/8以下まで削減した.一連の研究を通じて,アドホックアレイの高精度な同期やビームフォーミングの低遅延化を実現し,アレイ信号処理技術の適用範囲を拡張した.これらの課題を複数表現間の一貫性を考慮した最適化問題として定式化し,その効率的な解法を導出した.またCarnegie Mellon Universityとの共同研究では,深層学習に基づく多チャネル音声強調・分離技術を聴覚拡張や音声認識といった応用に合わせて最適化し,目的に応じて最適な音声強調・分離を実現した.
すべて 2024 2023
すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 2件) 学会発表 (2件) (うち国際学会 2件)
IEEE/ACM Transactions on Audio, Speech, and Language Processing
巻: 32 ページ: 1816~1828
10.1109/TASLP.2024.3369532
巻: 32 ページ: 310~324
10.1109/TASLP.2023.3329377