Project/Area Number |
22KJ2545
|
Project/Area Number (Other) |
21J21371 (2021-2022)
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Multi-year Fund (2023) Single-year Grants (2021-2022) |
Section | 国内 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Tokyo Metropolitan University |
Principal Investigator |
升山 義紀 東京都立大学, 大学院システムデザイン研究科, 特別研究員(DC1)
|
Project Period (FY) |
2023-03-08 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥3,100,000 (Direct Cost: ¥3,100,000)
Fiscal Year 2023: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2022: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2021: ¥1,100,000 (Direct Cost: ¥1,100,000)
|
Keywords | 音響信号処理 / ビームフォーミング / 分散デバイス / 低遅延 / 遠隔音声認識 / アレイ信号処理 / 最適化 |
Outline of Research at the Start |
本研究の目的は、スマートフォンやタブレットPCなどの録音機能を有した機器を連携させること(アドホックアレイ信号処理)で、広範囲の音情報を取得し高精度なコミュニケーション分析・音環境理解を実現することである。アドホックアレイでは各マイクが同期されていないことで、通常のアレイ信号処理技術がそのままでは適用できない。そこで本研究では、収録された音響信号のみから同期を行う技術を確立し、更に深層ニューラルネットワークを用いて広範囲の音情報に基づいた音源分離・認識を統合的に行う。
|
Outline of Annual Research Achievements |
本研究課題ではマイクロホンアレイを用いた多チャネル音響信号処理の実応用を見据え,分散配置されたデバイスを連携させ信号処理を行うアドホックアレイ信号処理,アレイ信号処理の低遅延化,さらにアレイ信号処理と音声認識の統合に取り組んできた. アドホックアレイ信号処理では,スマートフォンやタブレットPCといった電子機器ごとのサンプリング周波数のずれにより,通常のアレイでは定常になるマイク間の位相差が非定常になり,従来のアレイ信号処理技術がそのままでは適用できなくなるという課題がある.本年度は昨年度に引き続きサンプリング周波数のずれの推定・補償に取り組み,提案手法のマイク数・音源数・残響時間などに対する頑健性を調査し条件によらず提案手法が有効であることを確認した.また,会議における議事録作成やスマートスピーカのインターフェースへの応用を見据えて,アレイ信号処理と音声認識の統合にも取り組んだ.本年度はビームフォーミングだけではなくTF-GridNetという最先端の多チャネル音声強調・分離技術も検討し,雑音・残響を含む複数人の会話の認識において単語誤り率を既存技術の1/8以下まで削減した. 一連の研究を通じて,アドホックアレイの高精度な同期やビームフォーミングの低遅延化を実現し,アレイ信号処理技術の適用範囲を拡張した.これらの課題を複数表現間の一貫性を考慮した最適化問題として定式化し,その効率的な解法を導出した.またCarnegie Mellon Universityとの共同研究では,深層学習に基づく多チャネル音声強調・分離技術を聴覚拡張や音声認識といった応用に合わせて最適化し,目的に応じて最適な音声強調・分離を実現した.
|