研究課題/領域番号 |
20H00613
|
研究種目 |
基盤研究(A)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
中区分61:人間情報学およびその関連分野
|
研究機関 | 東京都立大学 |
研究代表者 |
小野 順貴 東京都立大学, システムデザイン研究科, 教授 (80334259)
|
研究分担者 |
須山 章子 (荒木章子) 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 主幹研究員 (30396212)
井本 桂右 同志社大学, 理工学部, 准教授 (90802116)
塩田 さやか 東京都立大学, システムデザイン研究科, 助教 (90705039)
宮崎 亮一 徳山工業高等専門学校, 情報電子工学科, 准教授 (40734728)
貴家 仁志 東京都立大学, システムデザイン研究科, 教授 (40157110)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
45,240千円 (直接経費: 34,800千円、間接経費: 10,440千円)
2023年度: 9,620千円 (直接経費: 7,400千円、間接経費: 2,220千円)
2022年度: 10,530千円 (直接経費: 8,100千円、間接経費: 2,430千円)
2021年度: 10,530千円 (直接経費: 8,100千円、間接経費: 2,430千円)
2020年度: 14,560千円 (直接経費: 11,200千円、間接経費: 3,360千円)
|
キーワード | 非同期 / 分散音響センシング / 音源分離 / 音声認識 / 音響シーン認識 / 分散マイクロホンアレイ / 同期 / ブリンキー |
研究開始時の研究の概要 |
本研究の目的は、複数録音機器を広範囲に配置し、分散音響センシングと非同期時系列モデリングにより、音声認識、音響シーン認識の性能を格段に向上することである。具体的な応用には、1)会議議事録の作成、実環境会話分析などオフライン処理可能なもの、2)セキュリティ、異常検出などリアルタイム処理が必要なものの2つに大別されるが、技術的には両方に共通する課題も多い。よって本研究ではこれらを、A) 複数機器のブラインド同期と音声認識応用、B) 音光変換センサを併用したマルチモーダルセンシング、C) 音響シーン認識応用の3つの研究トラックに整理し、研究を進める。
|
研究実績の概要 |
2021年度は以下の成果を得た。 1) 音響シーン認識:分散マイクロホンによる観測の一部に欠損がある場合,欠損を模擬したモデル学習やAutoEncoderによる欠損の補完により,シーン分類性能低下を防ぐ手法を提案した。また,音響イベント検出と音響シーン認識を同時にモデル化し,音響イベントの弱ラベルを用いて相互に性能を高めあう学習法を提案した。ブリンキーを用いることを想定した end-to-end学習に基づく音響シーン認識についても検討を進めた。2) ブリンキーに基づく分散音響センシング:小規模DNNをブリンキー内で動作させることに成功した。また,光信号飽和時に伝達係数と信号を推定する手法を提案した。新たな展開として,音響信号から複数ブリンキーの光信号への変換を圧縮センシングと捉え,スパースなスペクトルを復元する手法を提案した。3) 非同期信号の同期技術:補助関数法を用いた複数時間差推定のオンライン化について検討した。また,この手法をサンプリング周波数ミスマッチの同時推定に拡張した。4) 微弱周期信号への動的同期加算:サンプリング周波数が微小に時間変動する環境下で微弱周期信号を強調する手法を,インパルス応答推定に応用した。さらに前年度収録したデータベースを用いて実環境での評価も行った。5) アレイ信号処理の発展:リアルタイム応用を想定し,因果性制約下近接分離最適化によりビームフォーマーを設計する手法を提案した。時間周波数線形結合ビームフォーマーについても最適なフィルタ数について検討を進めた。音場補間に基づく,マイクロホンアレイの回転に頑健なビームフォーミングを提案した。6) 実世界応用:自閉スペクトラム症診断のための対話音声の分散録音と分析について検討を進めた他,国立国語研究所が公開している日常会話コーパスに対して,ブラインド同期と音源分離による重畳音声の分離を試みた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2021年度も引き続き,コロナ禍の影響を強く受けつつ研究を進めることになったが,補助関数法を用いた複数時間差推定のサンプリング周波数ミスマッチの同時推定への拡張,音場補間ビームフォーマ,動的同期加算を用いた微弱周期信号の強調に基づくインパルス応答推定など,前年度の成果に基づく進展がみられたほか,分散マイクロホンアレイにおける欠損を補う手法の提案,シーン認識とイベント検出の同時モデリング,因果性ビームフォーマ,圧縮センシングによるスパーススペクトル復元など,新たな研究成果も複数得られた。また,国立国語研究所が作成した日常会話コーパスという,実環境での非同期分散収録データに対する重畳音声の分離も始めている。関連して,国立国語研究所 言語資源活用ワークショップで研究代表者の小野がオンライン招待講演を行った。また,国際会議APSIPA ASC2021において,Sadaoki Furui Prize Paper Award受賞,APSIPA Best Paper Award受賞,指導学生が日本音響学会学生優秀発表賞(2件)など,多くの受賞も得られ,おおむね順調に進展していると評価する。
|
今後の研究の推進方策 |
今年度の成果を受けて,今後以下のように研究を進める方針である。 1) 音響シーン認識については引き続き,分散マイクロホンアレイを用いた空間特徴量の効果的な活用,音響シーン認識とイベント検出の同時モデリング,欠損を補間する手法の進展などを目指す。2) ブリンキーに基づく分散音響センシングについては,伝達係数と信号の統一的な推定方法を実環境で評価するほか,新たな展開としてスマホをブリンキーとして用いることについて検討を進める。3) 非同期信号の同期技術は,サンプリング周波数ミスマッチが時間変動したり,信号に欠損がある場合についての検討を始める。4) アレイ信号処理の発展としては,因果的なビームフォーマーの設計の効率化,複数の時間差やサンプリング周波数ミスマッチ推定における効果的な初期値の決定法,音場補間のブラインド音源分離への適用などへ展開していく。実世界応用については,自閉スペクトラム症診断支援,日常会話コーパスの重畳音声分離を引き続き進展させるとともに,交通量モニタリングについても検討を再開する予定である。
|