2022 Fiscal Year Annual Research Report
Innovation of speech / acoustic scene recognition based on distributed acoustic sensing and asynchronous sequence modeling
Project/Area Number |
20H00613
|
Research Institution | Tokyo Metropolitan University |
Principal Investigator |
小野 順貴 東京都立大学, システムデザイン研究科, 教授 (80334259)
|
Co-Investigator(Kenkyū-buntansha) |
須山 章子 (荒木章子) 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 主幹研究員 (30396212)
井本 桂右 同志社大学, 理工学部, 准教授 (90802116)
宮崎 亮一 徳山工業高等専門学校, 情報電子工学科, 准教授 (40734728)
塩田 さやか 東京都立大学, システムデザイン研究科, 准教授 (90705039)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | 非同期 / 分散音響センシング / 音源分離 / 音声認識 / 音響シーン認識 |
Outline of Annual Research Achievements |
本研究では研究トラックを、A)複数機器のブラインド同期と音声認識応用、B) 音光変換センサを併用したマルチモーダルセンシング、C) 音響シーン認識応用の3つの研究トラックに整理し、研究を進めてきた。主要な成果を以下にまとめる。 A)では、複数機器の同期が十分な精度でない場合に、位相情報を用いず振幅情報のみを用いて雑音抑圧を行う、伝達関数ゲインNMFという手法を提案し、ジャーナル論文として出版した。また、ブラインド同期の手法について、3台以上の機器を同時に扱う新たな手法を導出した。実世界応用の一つとしては、国立国語研究所が編纂した「日常会話コーパス」という分散録音された実データに対して、ブラインド同期とブラインド音源分離を行う手法を検討した。 B)では、音光変換デバイス「ブリンキー」を用い、ブリンキー内部の音光変換にランダム射影を用いることで、観測系全体がスパーススペクトルの圧縮センシングとなるような手法を考案し、シミュレーションにより有効性を確認した。 C)では、自己符号化器を用いて多チャンネル観測の欠損を復元し、シーン認識に用いる新たな手法を提案したほか、イベント検出のシーン認識を同時に行う手法の利点の明確化や、弱ラベルデータを用いる手法の検討などを進めた。 この他にも、音源移動に対する高速音源分離、高精度かつ外れ値に頑健な時間差推定法の検討、動物の発声分類や日常会話コーパスの音声分離など、多方面に研究を展開した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
A)複数機器のブラインド同期と音声認識応用、B) 音光変換センサを併用したマルチモーダルセンシング、C) 音響シーン認識応用の3つの研究トラックそれぞれで研究成果が出ており、全体で、ジャーナル論文1編、査読付き国際会議論文9編(うち3編はトップ会議論文)が採択された他、電子情報通信学会で解説論文を1編出版し、国内会議では学生が発表賞も受賞した。以上から、おおむね順調に進展していると評価する。
|
Strategy for Future Research Activity |
A) では、オブジェクトキャンセラー、3チャンネル以上のブラインド同期、多チャンネル時間差推定の高精度化の研究を引き続き進める。時間変動や欠損に頑健なブラインド同期のための非同期モデリングとしての動的計画法の適用も引き続き検討する。初年度に収録した非同期分散録音データの定量評価も引き続き進めていく。 B) では、ブリンキー内で小規模なニューラルネットワークを動作させる。複数ブリンキーの光強度から元の音響信号のスペクトルを復元する実環境実験については、今年度から実験スペースを確保できたため、昨年度以上に進展が期待できる。また、ブリンキーの光信号から音響情報を復元する際のキャリブレーションを簡単化するために、デジタル通信を用いることも検討する。 C) では、音響シーン認識と音響イベント検出を相互に活用する機械学習の枠組み、シーン認識のための効果的な空間特徴量をend-to-endで学習する手法など、機械学習を前提としながら非同期マイクの理論的な活用方法を探求していく。また交通量モニタリングや対話音声の分析など、実世界応用についても引き続き取り組む。
|
Research Products
(24 results)