Project/Area Number |
20H00613
|
Research Category |
Grant-in-Aid for Scientific Research (A)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Medium-sized Section 61:Human informatics and related fields
|
Research Institution | Tokyo Metropolitan University |
Principal Investigator |
小野 順貴 東京都立大学, システムデザイン研究科, 教授 (80334259)
|
Co-Investigator(Kenkyū-buntansha) |
須山 章子 (荒木章子) 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 主幹研究員 (30396212)
井本 桂右 同志社大学, 理工学部, 准教授 (90802116)
塩田 さやか 東京都立大学, システムデザイン研究科, 准教授 (90705039)
宮崎 亮一 徳山工業高等専門学校, 情報電子工学科, 准教授 (40734728)
貴家 仁志 東京都立大学, システムデザイン研究科, 教授 (40157110)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥45,240,000 (Direct Cost: ¥34,800,000、Indirect Cost: ¥10,440,000)
Fiscal Year 2023: ¥9,620,000 (Direct Cost: ¥7,400,000、Indirect Cost: ¥2,220,000)
Fiscal Year 2022: ¥10,530,000 (Direct Cost: ¥8,100,000、Indirect Cost: ¥2,430,000)
Fiscal Year 2021: ¥10,530,000 (Direct Cost: ¥8,100,000、Indirect Cost: ¥2,430,000)
Fiscal Year 2020: ¥14,560,000 (Direct Cost: ¥11,200,000、Indirect Cost: ¥3,360,000)
|
Keywords | 非同期 / 分散音響センシング / 音源分離 / 音声認識 / 音響シーン認識 / 分散マイクロホンアレイ / 同期 / ブリンキー |
Outline of Research at the Start |
本研究の目的は、複数録音機器を広範囲に配置し、分散音響センシングと非同期時系列モデリングにより、音声認識、音響シーン認識の性能を格段に向上することである。具体的な応用には、1)会議議事録の作成、実環境会話分析などオフライン処理可能なもの、2)セキュリティ、異常検出などリアルタイム処理が必要なものの2つに大別されるが、技術的には両方に共通する課題も多い。よって本研究ではこれらを、A) 複数機器のブラインド同期と音声認識応用、B) 音光変換センサを併用したマルチモーダルセンシング、C) 音響シーン認識応用の3つの研究トラックに整理し、研究を進める。
|
Outline of Annual Research Achievements |
本研究では研究トラックを、A)複数機器のブラインド同期と音声認識応用、B) 音光変換センサを併用したマルチモーダルセンシング、C) 音響シーン認識応用の3つの研究トラックに整理し、研究を進めてきた。主要な成果を以下にまとめる。 A)では、我々が「音響オブジェクト」と呼ぶ、事前に信号波形が入手可能な信号(例えば、商用音楽信号、携帯の着信音、各種報知音など)を、ブラインド同期に基づきモノラル録音から分離する手法を確立した。また、3台以上の録音機器に対し、特定の参照機器とその他の機器ののみのペアを考えるのではなく、全ての機器ペア間の同期を同時最適化として解く効率的なアルゴリズムを導出し、有効性を確認した。さらに、動的計画法により欠損ありの信号に対してブラインド同期を行う新たな手法を導出した。また、高精度音声認識を目指し、自己教師あり学習に基づく音声分離と認識の統合を、米国CMUと共同研究として行った。 B)では音光変換デバイス「ブリンキー」の研究を進め、光信号飽和時の信号検出方法として非負値行列因子分解を用いた方法を新たに考案した。また、ビデオカメラとブリンキーの間の距離や角度に応じた光信号のキャリブレーションを不要とするため、スマホアプリとして音光変換を行い、スマホ画面の空間パターンで信号を伝送する新たなデジタル方式のブリンキーを創出した。 C)では、多チャンネル録音の部分的欠損に頑健な音響シーン認識、距離に基づく音源分離を用いた環境音分類など、新たな観点からの展開や、音による交通量モニタリングという実応用への検討を進めた。 この他にも、動物の発声分類、音源やマイクの移動に頑健な音源分離、エイリアス信号のブラインド分離、イベント検出とシーン認識の同時最適化など、多方面に研究を展開した。
|
Research Progress Status |
令和5年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和5年度が最終年度であるため、記入しない。
|