研究課題/領域番号 |
20H00613
|
研究種目 |
基盤研究(A)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
中区分61:人間情報学およびその関連分野
|
研究機関 | 東京都立大学 |
研究代表者 |
小野 順貴 東京都立大学, システムデザイン研究科, 教授 (80334259)
|
研究分担者 |
須山 章子 (荒木章子) 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 主幹研究員 (30396212)
井本 桂右 同志社大学, 理工学部, 准教授 (90802116)
塩田 さやか 東京都立大学, システムデザイン研究科, 准教授 (90705039)
宮崎 亮一 徳山工業高等専門学校, 情報電子工学科, 准教授 (40734728)
貴家 仁志 東京都立大学, システムデザイン研究科, 教授 (40157110)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
45,240千円 (直接経費: 34,800千円、間接経費: 10,440千円)
2023年度: 9,620千円 (直接経費: 7,400千円、間接経費: 2,220千円)
2022年度: 10,530千円 (直接経費: 8,100千円、間接経費: 2,430千円)
2021年度: 10,530千円 (直接経費: 8,100千円、間接経費: 2,430千円)
2020年度: 14,560千円 (直接経費: 11,200千円、間接経費: 3,360千円)
|
キーワード | 分散マイクロホンアレイ / 分散音響センシング / 音声認識 / 音響シーン認識 / 音源分離 / 同期 / 音光変換 / ブリンキー / 非同期 |
研究開始時の研究の概要 |
本研究の目的は、複数録音機器を広範囲に配置し、分散音響センシングと非同期時系列モデリングにより、音声認識、音響シーン認識の性能を格段に向上することである。具体的な応用には、1)会議議事録の作成、実環境会話分析などオフライン処理可能なもの、2)セキュリティ、異常検出などリアルタイム処理が必要なものの2つに大別されるが、技術的には両方に共通する課題も多い。よって本研究ではこれらを、A) 複数機器のブラインド同期と音声認識応用、B) 音光変換センサを併用したマルチモーダルセンシング、C) 音響シーン認識応用の3つの研究トラックに整理し、研究を進める。
|
研究成果の概要 |
本研究では、非同期信号をブラインドに同期する技術として、高精度時間差推定やサンプリング周波数ミスマッチ推定とその補償について、効率的なアルゴリズムを構築し、また、音響オブジェクトキャンセラーやサンプリング周波数変動下でのインパルス応答推定などに展開した。音光変換を用いたマルチモーダルな音響センシングとしては、従来の強度変換だけでなく、メロディの可視化、小規模DNNによる発話推定、圧縮センシングに基づくスパーススペクトルの復元の他、end-to-end学習による音響シーン認識のための最適化など、目的に応じた手法を構築した。分散センシングに基づく空間特徴量の音響シーン認識に対する有効性も確認した。
|
研究成果の学術的意義や社会的意義 |
マイクロホンを分散配置し音響信号処理を行うには、従来は厳密な時間同期が必要であり、有線接続は煩雑な配線を、無線の利用は大きな帯域幅を必要とするなどの困難があった。これに対し本研究は、我々の身の回りにあるスマートフォン、モバイル端末などの複数の録音機器を観測信号のみから同期する手法を確立した。これにより分散録音機器をアレイ信号処理、具体的には音源分離、音源強調,空間情報の取得などに活用することが可能となった。これらは遠隔音声認識や音響シーン認識の性能向上に大きく貢献する。また音光変換とビデオカメラを用いた音響分散センシングの独自の枠組みを進展させ、音響シーン認識の新しい方向性を提示できた。
|