研究課題/領域番号 |
21J21371
|
配分区分 | 補助金 |
研究機関 | 東京都立大学 |
研究代表者 |
升山 義紀 東京都立大学, 大学院システムデザイン研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2021-04-28 – 2024-03-31
|
キーワード | 音響信号処理 / アレイ信号処理 / 最適化 / 分散デバイス / ビームフォーミング |
研究実績の概要 |
本研究課題では,分散配置されたスマートフォンやタブレットPCなどの録音機能をもつデバイスを連携させアレイ信号処理を行う,アドホックアレイ信号処理に取り組んでいる.アドホックアレイ信号処理では,各デバイスでのサンプリング周波数のずれにより,通常のアレイでは定常になるマイク間の位相差が非定常になり,これまでのアレイ信号処理がそのままでは適用できなくなるという課題がある. 本年度は昨年度に引き続き,位相差の非定常性の原因であるサンプリング周波数のずれの推定・補償に取り組んだ.従来手法はあるマイクロホンのサンプリング周波数を基準とし,各非参照マイクロホンのサンプリング周波数の基準からのずれを個別に推定する.一方,提案手法では,アドホックアレイにおける多チャネル信号全体の確率モデルに基づきすべての非参照マイクロホンのサンプリング周波数を同時推定する.これにより,従来手法では考慮されていなかった非参照マイクロホン間の整合性を最適化の基準に取り入れることができ,推定精度が改善することを確認した.そして,サンプリング周波数の補償を行わないと音源分離の性能が低下する条件においても,提案手法によって音源分離性能を維持できることを確認した. また,アドホックアレイ信号処理の主要な応用先の一つである会議などの議事録作成を見据えて,音声強調・分離と音声認識の統合学習にも取り組んだ.特に,音声認識では近年注目されている自己教師あり学習表現 (SSLR) モデルを活用することで高い性能を実現した.多チャネル音声強調では様々なビームフォーマを比較検討し,WPDビームフォーマとSSLRモデルと組み合わせることで雑音・残響のある様々な環境において特に低い単語誤り率を実現した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は,アドホックアレイを構築する各マイクロホンにおけるサンプリング周波数の基準値からのずれを同時推定する手法について,Interspeech2022にて発表を行った.提案手法はすべてのマイクロホンペアにおける関係性を考慮して,サンプリング周波数のずれを同時推定する.更に,推定アルゴリズムの高速化・初期化依存性の解消について信号処理研究会で発表を行い、ジャーナル論文を投稿中である.この成果はアドホックアレイ信号処理における中心的な課題である非同期性を解消するものであり,本研究課題を大きく進めることができた. またCarnegie Mellon Universityに滞在し,多チャネル音声強調と音声認識を統合した遠隔音声認識システムの開発に取り組んだ.本成果はIEEE SLTにてBest Student Paper Awardを受賞している.遠隔音声認識はアドホックアレイの主要な応用先であり,本滞在によって応用に向けたシステム基盤を構築することができた. 以上より,本研究課題に関する有望な同期手法を提案し,その応用に関する成果も出始めているという点で,本研究課題はおおむね順調に進展しているといえる.
|
今後の研究の推進方策 |
アドホックアレイにおけるサンプリング周波数の高精度な推定・補償技術を確立できたため,今後はアドホックアレイ上での高精度な音声強調・分離の実現と遠隔音声認識における評価を目指す.初年度から引き続き研究を進めてきた,時間・周波数・空間の3軸の複素短時間フーリヘ変換係数の信号処理的なモデリング技術の発展に加え,深層ニューラルネットワークを用いたend-to-endな手法についても検討を行う.これら2つの方向を統合することで,アドホックアレイのようなアレイ配置が変化し,サンプリング周波数やマイクロホンの感度にばらつきがある状況でも安定して動作する音声強調・分離手法を実現し,遠隔音声認識などの応用における実用性を確認する.
|