2020 Fiscal Year Annual Research Report
Innovation of speech / acoustic scene recognition based on distributed acoustic sensing and asynchronous sequence modeling
Project/Area Number |
20H00613
|
Research Institution | Tokyo Metropolitan University |
Principal Investigator |
小野 順貴 東京都立大学, システムデザイン研究科, 教授 (80334259)
|
Co-Investigator(Kenkyū-buntansha) |
須山 章子 (荒木章子) 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 主幹研究員 (30396212)
井本 桂右 同志社大学, 理工学部, 准教授 (90802116)
塩田 さやか 東京都立大学, システムデザイン研究科, 助教 (90705039)
宮崎 亮一 徳山工業高等専門学校, 情報電子工学科, 准教授 (40734728)
貴家 仁志 東京都立大学, システムデザイン研究科, 教授 (40157110)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | 分散マイクロホンアレイ / 音声認識 / 音響シーン認識 / 同期 / 音源分離 / ブリンキー |
Outline of Annual Research Achievements |
2020年度は以下のような成果を得た。 1) データベース作成:分散マイクの基礎理論や非同期モデリングの検証のため,複数のICレコーダ端末およびスマートホン端末,そして比較用の同期マイクアレイを用いた音声収録を実施した。次年度以降の研究に活用していく予定である。2) 音響シーン認識:分散マイクロホンアレイにおける重要な特徴量である空間ケプストラムの,マイクロホン移動に対する頑健性について調査し,低次の空間ケプストラム係数はその影響を受けにくいことを確認した。また,後述するブリンキーを用いることを想定した end-to-end学習に基づく音響シーン認識を検討した。3) 音場補間:マイクロホン移動に対する頑健性獲得のための新たなアプローチとして,音場補間により,移動していないマイクロホンアレイ信号を仮想的に推定して処理を行う新たな枠組みを創出した。また,ヴァーチャル観測信号を導入したニューラルネットワークビームフォーマを提案した。4) 微弱周期信号への動的同期加算:複数デバイス間の同期技術を時間方向に拡張し,サンプリング周波数が微小に時間変動する環境下で,動的な同期加算により微弱周期信号を強調する手法を構築した。5) ブリンキーに基づく分散音響センシング:音光変換デバイスブリンキーを活用した分散音響センシングとして,エネルギーベースの複数音源位置推定やピッチのリアルタイム可視化システムを実現した。また,ブリンキー信号処理のためのシミュレータの構築や直交検波を用いた複数ブリンキーの自動検出を試みた。6) アレイ信号処理の発展:時間周波数毎スイッチングビームフォーマの拡張,複数時間差推定の補助関数型更新アルゴリズムの導出,DOAパーミュテーションの反復更新による複数音源定位などを進めた。7) 実世界応用:実世界応用の一つとして,医療場面での対話音声の分散録音と発話区間分析を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2020年度は,研究開始当初からコロナ禍が始まり,分散マイクロホンアレイによる収録や実環境での実験のみならず,対面での研究活動が大きく制限され,オンラインでの研究ミーティングや国内外の学会発表等,これまで経験のない環境で研究を進めることとなったため,実環境実験を中心に,一部,研究計画より遅れが生じた。しかしながら,感染症対策を行いつつできる範囲で研究を進め,データベース作成は行うことができたし,音光変換デバイスブリンキーの音響シーン認識への応用可能性や空間ケプストラムのマイク移動へのがん形成など,実環境実験に先立ち計算機シミュレーションを先行することにより,研究を進めることができた。また,音場補間という新たなアレイ信号処理の枠組みや,時間周波数毎スイッチングビームフォーマの拡張,複数時間差推定の補助関数型更新アルゴリズムの導出等,今後,本課題遂行に重要となる基礎技術が創出され,これに関連して当該学生が第4回IEEE Signal Processing Society (SPS) Tokyo Joint Chapter Student Awardを受賞した。また本課題に大きく関連する音響シーン認識の国際会議 Workshop on Detection and Classification of Acoustic Scenes and Events (DCASE)を general chairの一人としてオンライン開催し,盛会とすることができたなど,大きな成果も多数得られたため,全体としては,おおむね順調に進展していると評価する。
|
Strategy for Future Research Activity |
今年度の成果を受けて,今後以下のように研究を進める方針である。 1) 2020年度に作成した非同期録音データベースを使用し,同期精度や音声認識タスクを評価する研究を進める。2) 音響シーン認識については,ブリンキーの使用可能性を引き続き検討する。また,非同期モデリングを活用しつつ,音響シーン認識とイベント検出という関連タスクを同時に行うことの効果について検討を進める。3) 音場補間はビームフォーマやブラインド音源分離への展開を進める。4) 微弱周期信号への動的同期加算は,強調した周期信号を用いたインパルス応答推定へ展開する。5) ブリンキーに基づく分散音響センシングについては,ブリンキー内部でDNNを動かし,特定の音響イベントを検出したり符号化したりする方向に研究を進める。6) その他,複数時間差推定の補助関数型更新アルゴリズムを用いた高精度同期手法の実現など,基礎技術の進展も進めるほか,医療応用(ASD診断など)や交通量モニタリングなどの実世界応用についても,産学連携も視野に含めつつ展開する。
|
Research Products
(18 results)