2022 Fiscal Year Annual Research Report

Innovation of speech / acoustic scene recognition based on distributed acoustic sensing and asynchronous sequence modeling

Research Project

Project/Area Number	20H00613
Research Institution	Tokyo Metropolitan University
Principal Investigator	小野順貴東京都立大学, システムデザイン研究科, 教授 (80334259)
Co-Investigator(Kenkyū-buntansha)	須山章子 (荒木章子) 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 主幹研究員 (30396212) 井本桂右同志社大学, 理工学部, 准教授 (90802116) 宮崎亮一徳山工業高等専門学校, 情報電子工学科, 准教授 (40734728) 塩田さやか東京都立大学, システムデザイン研究科, 准教授 (90705039)
Project Period (FY)	2020-04-01 – 2024-03-31
Keywords	非同期 / 分散音響センシング / 音源分離 / 音声認識 / 音響シーン認識
Outline of Annual Research Achievements	本研究では研究トラックを、A)複数機器のブラインド同期と音声認識応用、B) 音光変換センサを併用したマルチモーダルセンシング、C) 音響シーン認識応用の３つの研究トラックに整理し、研究を進めてきた。主要な成果を以下にまとめる。 A)では、複数機器の同期が十分な精度でない場合に、位相情報を用いず振幅情報のみを用いて雑音抑圧を行う、伝達関数ゲインNMFという手法を提案し、ジャーナル論文として出版した。また、ブラインド同期の手法について、３台以上の機器を同時に扱う新たな手法を導出した。実世界応用の一つとしては、国立国語研究所が編纂した「日常会話コーパス」という分散録音された実データに対して、ブラインド同期とブラインド音源分離を行う手法を検討した。 B)では、音光変換デバイス「ブリンキー」を用い、ブリンキー内部の音光変換にランダム射影を用いることで、観測系全体がスパーススペクトルの圧縮センシングとなるような手法を考案し、シミュレーションにより有効性を確認した。 C)では、自己符号化器を用いて多チャンネル観測の欠損を復元し、シーン認識に用いる新たな手法を提案したほか、イベント検出のシーン認識を同時に行う手法の利点の明確化や、弱ラベルデータを用いる手法の検討などを進めた。この他にも、音源移動に対する高速音源分離、高精度かつ外れ値に頑健な時間差推定法の検討、動物の発声分類や日常会話コーパスの音声分離など、多方面に研究を展開した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason A)複数機器のブラインド同期と音声認識応用、B) 音光変換センサを併用したマルチモーダルセンシング、C) 音響シーン認識応用の３つの研究トラックそれぞれで研究成果が出ており、全体で、ジャーナル論文１編、査読付き国際会議論文９編（うち３編はトップ会議論文）が採択された他、電子情報通信学会で解説論文を１編出版し、国内会議では学生が発表賞も受賞した。以上から、おおむね順調に進展していると評価する。
Strategy for Future Research Activity	A) では、オブジェクトキャンセラー、３チャンネル以上のブラインド同期、多チャンネル時間差推定の高精度化の研究を引き続き進める。時間変動や欠損に頑健なブラインド同期のための非同期モデリングとしての動的計画法の適用も引き続き検討する。初年度に収録した非同期分散録音データの定量評価も引き続き進めていく。 B) では、ブリンキー内で小規模なニューラルネットワークを動作させる。複数ブリンキーの光強度から元の音響信号のスペクトルを復元する実環境実験については、今年度から実験スペースを確保できたため、昨年度以上に進展が期待できる。また、ブリンキーの光信号から音響情報を復元する際のキャリブレーションを簡単化するために、デジタル通信を用いることも検討する。 C) では、音響シーン認識と音響イベント検出を相互に活用する機械学習の枠組み、シーン認識のための効果的な空間特徴量をend-to-endで学習する手法など、機械学習を前提としながら非同期マイクの理論的な活用方法を探求していく。また交通量モニタリングや対話音声の分析など、実世界応用についても引き続き取り組む。

Research Products
(24 results)

All 2023 2022

All Journal Article (11 results) (of which Open Access: 2 results, Peer Reviewed: 10 results) Presentation (13 results) (of which Invited: 1 results)

[Journal Article] Noise Suppression Using Beamformer and Transfer-function-gain Nonnegative Matrix Factorization with Distributed Stereo Microphones2023
- Author(s)
  Yutaro Matsui, Shoji Makino, Nobutaka Ono, and Takeshi Yamada
- Journal Title
  
  Journal of Signal Processing
  
  Volume: 27 Pages: "1-6"
- DOI
  10.1109/TASLP.2024.3369532
- Peer Reviewed / Open Access
[Journal Article] 環境音分析・異常音検知の研究動向2022
- Author(s)
  井本桂右, 川口洋平
- Journal Title
  
  電子情報通信学会基礎・境界ソサイエティ Fundamentals review
  
  Volume: 15 Pages: 268-280
- DOI
  10.1587/essfr.15.4_268
- Open Access
[Journal Article] Compressed Sensing of Sparse Spectrum Using Distributed Sound-to-Light Conversion Device Blinkies2022
- Author(s)
  Satoshi Motoyama, Natsuki Ueno, Yuma Kinoshita, Nobutaka Ono
- Journal Title
  
  Proc. APSIPA ASC
  
  Volume: - Pages: "12-16"
- DOI
  10.23919/APSIPAASC55919.2022.9979874
- Peer Reviewed
[Journal Article] Estimation of Transfer Coefficients and Signals of Sound-to-Light Conversion Device Blinky Under Saturation2022
- Author(s)
  Kosuke Nishida, Natsuki Ueno, Yuma Kinoshita, Nobutaka Ono
- Journal Title
  
  Proc. APSIPA ASC
  
  Volume: - Pages: 718-723
- DOI
  10.23919/APSIPAASC55919.2022.9980090
- Peer Reviewed
[Journal Article] How Information on Acoustic Scenes and Sound Events Mutually Benefits Event Detection and Scene Classification Tasks2022
- Author(s)
  Ami Igarashi, Keisuke Imoto, Yuka Komatsu, Shunsuke Tsubaki, Shuto Hario, and Tatsuya Komatsu
- Journal Title
  
  Proc. APSIPA ASC
  
  Volume: - Pages: 7-11
- DOI
  10.23919/APSIPAASC55919.2022.9979926
- Peer Reviewed
[Journal Article] Analysis and source separation of overlapping speech using corpus of everyday japanese conversation2022
- Author(s)
  Haruki Nammoku, Kouei Yamaoka, Taishi Nakashima, Yukoh Wakabayashi, Nobutaka Ono
- Journal Title
  
  Proc. ICA
  
  Volume: - Pages: "1-8"
- Peer Reviewed
[Journal Article] Joint Optimization of Sampling Rate Offsets Based on Entire Signal Relationship Among Distributed Microphones2022
- Author(s)
  Yoshiki Masuyama, Kouei Yamaoka, Nobutaka Ono
- Journal Title
  
  Proc. INTERSPEECH
  
  Volume: - Pages: 704-708
- DOI
  10.21437/Interspeech.2022-97
- Peer Reviewed
[Journal Article] Use of Nods Less Synchronized with Turn-Taking and Prosody During Conversations in Adults with Autism2022
- Author(s)
  Keiko Ochi, Nobutaka Ono, Keiho Owada, Shigeki Sagayama, and Hidenori Yamasue
- Journal Title
  
  Proc. INTERSPEECH
  
  Volume: - Pages: 1136-1140
- DOI
  10.21437/Interspeech.2022-11388
- Peer Reviewed
[Journal Article] Joint Analysis of Acoustic Scenes and Sound Events with Weakly labeled Data2022
- Author(s)
  Shunsuke Tsubaki, Keisuke Imoto, Nobutak Ono
- Journal Title
  
  Proc. IWAENC
  
  Volume: - Pages: "1-5"
- DOI
  10.1109/IWAENC53105.2022.9914800
- Peer Reviewed
[Journal Article] Missing data recovery using autoencoder for multi-channel acoustic scene classification2022
- Author(s)
  Yuki Shiroma, Yuma Kinoshita, Keisuke Imoto, Sayaka Shiota, Nobutaka Ono, Hitoshi Kiya
- Journal Title
  
  Proc. EUSIPCO
  
  Volume: - Pages: 767-771
- DOI
  10.23919/EUSIPCO55093.2022.9909955
- Peer Reviewed
[Journal Article] Entrainment Analysis for Assessment of Autistic Speech Prosody Using Bottleneck Features OF Deep Neural Network2022
- Author(s)
  Keiko Ochi, Nobutaka Ono, Keiho Owada, Shigeki Sagayama, and Hidenori Yamasue
- Journal Title
  
  Proc. ICASSP
  
  Volume: - Pages: 8492-8496
- DOI
  10.1109/ICASSP43922.2022.9746787
- Peer Reviewed
[Presentation] 多チャネル時間差推定における性能限界の導出2023
- Author(s)
  山岡洸瑛, 植野夏樹, 小野順貴
- Organizer
  日本音響学会2023年春季研究発表会
[Presentation] 独立ベクトル分析によるオンライン音源分離・追跡のための高速最適化2023
- Author(s)
  中嶋大志, 池下林太郎, 小野順貴, 荒木章子, 中谷智広
- Organizer
  日本音響学会2023年春季研究発表会
[Presentation] エイリアシング成分のブラインド信号分離とそれに基づく帯域復元2023
- Author(s)
  中村優希, 中嶋大志, 小野順貴, 宮崎亮一
- Organizer
  日本音響学会2023年春季研究発表会
- Invited
[Presentation] 機械学習によるマーモセットの発声分類とそれに基づく発達に伴う発声変化の分析2023
- Author(s)
  上坂奏人，河内秀人，山岡洸瑛，若林佑幸，木下裕磨，小野順貴，渡邉惠，野口潤，一戸紀孝，ベナー聖子，山末英典
- Organizer
  日本音響学会2023年春季研究発表会
[Presentation] トラフィックカウンタにより取得した学習データに基づく音による交通モニタリング2023
- Author(s)
  高橋知宏，木下裕磨，若林佑幸，小野順貴，本多潤，福馬誠士，中川浩
- Organizer
  日本音響学会2023年春季研究発表会
[Presentation] 計算機による環境音の理解・解釈に向けた統合的コンペティションDCASE Challengeへの招待2023
- Author(s)
  井本桂右
- Organizer
  日本音響学会2023年春季研究発表会
[Presentation] 半教師あり学習に基づく音響シーンと音響イベントの同時分析2023
- Author(s)
  五十嵐彩美, 椿俊介, 井本桂右
- Organizer
  電子情報通信学会音声研究会
[Presentation] 音光変換デバイス「ブリンキー」を用いた圧縮センシングに基づくスパースなスペクトルの推定2022
- Author(s)
  本山智司，植野夏樹，木下裕磨，小野順貴
- Organizer
  信号処理シンポジウム
[Presentation] 補助関数法に基づく円状マイクロホンアレイの自己回転角度推定2022
- Author(s)
  連冠三, 山岡洸瑛, 若林佑幸, 小野順貴
- Organizer
  日本音響学会2022年秋季研究発表会
[Presentation] 最小全域木を用いた複数時間差の同時推定2022
- Author(s)
  山岡洸瑛, 中嶋大志, 小野順貴
- Organizer
  日本音響学会2022年秋季研究発表会
[Presentation] 因果的MPDRビームフォーマのオンライン化およびタップ長の影響評価2022
- Author(s)
  升山義紀, 山岡洸瑛, 木下裕磨, 小野順貴
- Organizer
  日本音響学会2022年秋季研究発表会
[Presentation] 音響シーン認識のためのサブアレイ間相関特徴量の検討2022
- Author(s)
  河村隆生, 木下裕磨, 小野順貴, シャイブラーロビン
- Organizer
  日本音響学会2022年秋季研究発表会
[Presentation] ブラインド音源分離における分離行列の一般化ランク1更新2022
- Author(s)
  小野順貴
- Organizer
  電子情報通信学会応用音響研究会

2022 Fiscal Year Annual Research Report

Innovation of speech / acoustic scene recognition based on distributed acoustic sensing and asynchronous sequence modeling

Principal Investigator

小野 順貴 東京都立大学, システムデザイン研究科, 教授 (80334259)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Noise Suppression Using Beamformer and Transfer-function-gain Nonnegative Matrix Factorization with Distributed Stereo Microphones2023

Author(s)

Journal Title

DOI

[Journal Article] 環境音分析・異常音検知の研究動向2022

Author(s)

Journal Title

DOI

[Journal Article] Compressed Sensing of Sparse Spectrum Using Distributed Sound-to-Light Conversion Device Blinkies2022

Author(s)

Journal Title

DOI

[Journal Article] Estimation of Transfer Coefficients and Signals of Sound-to-Light Conversion Device Blinky Under Saturation2022

Author(s)

Journal Title

DOI

[Journal Article] How Information on Acoustic Scenes and Sound Events Mutually Benefits Event Detection and Scene Classification Tasks2022

Author(s)

Journal Title

DOI

[Journal Article] Analysis and source separation of overlapping speech using corpus of everyday japanese conversation2022

Author(s)

Journal Title

[Journal Article] Joint Optimization of Sampling Rate Offsets Based on Entire Signal Relationship Among Distributed Microphones2022

Author(s)

Journal Title

DOI

[Journal Article] Use of Nods Less Synchronized with Turn-Taking and Prosody During Conversations in Adults with Autism2022

Author(s)

Journal Title

DOI

[Journal Article] Joint Analysis of Acoustic Scenes and Sound Events with Weakly labeled Data2022

Author(s)

Journal Title

DOI

[Journal Article] Missing data recovery using autoencoder for multi-channel acoustic scene classification2022

Author(s)

Journal Title

DOI

[Journal Article] Entrainment Analysis for Assessment of Autistic Speech Prosody Using Bottleneck Features OF Deep Neural Network2022

Author(s)

Journal Title

DOI

[Presentation] 多チャネル時間差推定における性能限界の導出2023

Author(s)

Organizer

[Presentation] 独立ベクトル分析によるオンライン音源分離・追跡のための高速最適化2023

Author(s)

Organizer

[Presentation] エイリアシング成分のブラインド信号分離とそれに基づく帯域復元2023

Author(s)

Organizer

[Presentation] 機械学習によるマーモセットの発声分類とそれに基づく発達に伴う発声変化の分析2023

Author(s)

Organizer

[Presentation] トラフィックカウンタにより取得した学習データに基づく音による交通モニタリング2023

Author(s)

Organizer

[Presentation] 計算機による環境音の理解・解釈に向けた統合的コンペティションDCASE Challengeへの招待2023

Author(s)

Organizer

[Presentation] 半教師あり学習に基づく音響シーンと音響イベントの同時分析2023

Author(s)

Organizer

[Presentation] 音光変換デバイス「ブリンキー」を用いた圧縮センシングに基づくスパースなスペクトルの推定2022

Author(s)

Organizer

[Presentation] 補助関数法に基づく円状マイクロホンアレイの自己回転角度推定2022

Author(s)

Organizer

[Presentation] 最小全域木を用いた複数時間差の同時推定2022

Author(s)

Organizer

小野順貴東京都立大学, システムデザイン研究科, 教授 (80334259)