2023 Fiscal Year Annual Research Report

Innovation of speech / acoustic scene recognition based on distributed acoustic sensing and asynchronous sequence modeling

Research Project

Project/Area Number	20H00613
Research Institution	Tokyo Metropolitan University
Principal Investigator	小野順貴東京都立大学, システムデザイン研究科, 教授 (80334259)
Co-Investigator(Kenkyū-buntansha)	須山章子 (荒木章子) 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, メディア情報研究部, 主幹研究員 (30396212) 井本桂右同志社大学, 理工学部, 准教授 (90802116) 塩田さやか東京都立大学, システムデザイン研究科, 准教授 (90705039) 宮崎亮一徳山工業高等専門学校, 情報電子工学科, 准教授 (40734728)
Project Period (FY)	2020-04-01 – 2024-03-31
Keywords	非同期 / 分散音響センシング / 音源分離 / 音声認識 / 音響シーン認識
Outline of Annual Research Achievements	本研究では研究トラックを、A)複数機器のブラインド同期と音声認識応用、B) 音光変換センサを併用したマルチモーダルセンシング、C) 音響シーン認識応用の３つの研究トラックに整理し、研究を進めてきた。主要な成果を以下にまとめる。 A)では、我々が「音響オブジェクト」と呼ぶ、事前に信号波形が入手可能な信号（例えば、商用音楽信号、携帯の着信音、各種報知音など）を、ブラインド同期に基づきモノラル録音から分離する手法を確立した。また、３台以上の録音機器に対し、特定の参照機器とその他の機器ののみのペアを考えるのではなく、全ての機器ペア間の同期を同時最適化として解く効率的なアルゴリズムを導出し、有効性を確認した。さらに、動的計画法により欠損ありの信号に対してブラインド同期を行う新たな手法を導出した。また、高精度音声認識を目指し、自己教師あり学習に基づく音声分離と認識の統合を、米国CMUと共同研究として行った。 B)では音光変換デバイス「ブリンキー」の研究を進め、光信号飽和時の信号検出方法として非負値行列因子分解を用いた方法を新たに考案した。また、ビデオカメラとブリンキーの間の距離や角度に応じた光信号のキャリブレーションを不要とするため、スマホアプリとして音光変換を行い、スマホ画面の空間パターンで信号を伝送する新たなデジタル方式のブリンキーを創出した。 C)では、多チャンネル録音の部分的欠損に頑健な音響シーン認識、距離に基づく音源分離を用いた環境音分類など、新たな観点からの展開や、音による交通量モニタリングという実応用への検討を進めた。この他にも、動物の発声分類、音源やマイクの移動に頑健な音源分離、エイリアス信号のブラインド分離、イベント検出とシーン認識の同時最適化など、多方面に研究を展開した。
Research Progress Status	令和5年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	令和5年度が最終年度であるため、記入しない。

Research Products
(29 results)

All 2024 2023 Other

All Int'l Joint Research (1 results) Journal Article (17 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 17 results, Open Access: 7 results) Presentation (11 results) (of which Invited: 1 results)

[Int'l Joint Research] Carnegie Mellon University(米国)
- Country Name
  U.S.A.
- Counterpart Institution
  Carnegie Mellon University
[Journal Article] Refining Knowledge Transfer on Audio-Image Temporal Agreement for Audio-Text Cross Retrieval2024
- Author(s)
  Shunsuke Tsubaki, Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, and Keisuke Imoto
- Journal Title
  
  Proc. EUSIPCO
  
  Volume: - Pages: 1-5
- Peer Reviewed
[Journal Article] Efficient Joint Optimization of Sampling Rate Offsets Using Entire Multichannel Signal2023
- Author(s)
  Yoshiki Masuyama, Kouei Yamaoka, Takao Kawamura, and Nobutaka Ono
- Journal Title
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  Volume: 32 Pages: 1816-1828
- DOI
  10.1109/TASLP.2024.3369532
- Peer Reviewed / Open Access
[Journal Article] Objective Assessment of Autism Spectrum Disorder Based on Performance in Structured Interpersonal Acting-Out Tasks with Prosodic Stability and Variability2023
- Author(s)
  Keiko Ochi, Masaki Kojima, Nobutaka Ono, Miho Kuroda, Keiho Owada, Shigeki Sagayama, and Hidenori Yamasue
- Journal Title
  
  Autism Research
  
  Volume: 17 Pages: 395-409
- DOI
  10.1002/aur.3080
- Peer Reviewed
[Journal Article] Causal and Relaxed-Distortionless Response Beamforming for Online Target Source Extraction2023
- Author(s)
  Yoshiki Masuyama, Kouei Yamaoka, Yuma Kinoshita, Taishi Nakashima, and Nobutaka Ono
- Journal Title
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  Volume: 32 Pages: 310-324
- DOI
  10.1109/TASLP.2023.3329377
- Peer Reviewed / Open Access
[Journal Article] Minimum-Spanning-Tree-Based Time Delay Estimation Robust to Outliers2023
- Author(s)
  Kouei Yamaoka, Taishi Nakashima, Yukoh Wakabayashi, and Nobutaka Ono
- Journal Title
  
  IEEE Access
  
  Volume: 11 Pages: 121284-121294
- DOI
  10.1109/ACCESS.2023.3327011
- Peer Reviewed / Open Access
[Journal Article] Acoustic Object Canceller: Removing Known Signal Using Blind Syncronization2023
- Author(s)
  Takao Kawamura, Kouei Yamaoka, Yukoh Wakabayashi, Nobutaka Ono, and Ryoichi Miyazaki
- Journal Title
  
  EURASIP Journal on Audio, Speech, and Music Processing
  
  Volume: - Pages: 1-16
- DOI
  10.1186/s13636-023-00300-y
- Peer Reviewed / Open Access
[Journal Article] Sound Field Interpolation for Rotation-invariant Multichannel Array Signal Processing2023
- Author(s)
  Yukoh Wakabayashi, Kouei Yamaoka, and Nobutaka Ono
- Journal Title
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  Volume: 31 Pages: 2286-2298
- DOI
  10.1109/TASLP.2023.3282098
- Peer Reviewed / Open Access
[Journal Article] Missing data completion of multi-channel signals using autoencoder for acoustic scene classification2023
- Author(s)
  Yuki Shiroma, Yuma Kinoshita, Keisuke Imoto, Sayaka Shiota, Nobutaka Ono, and Hitoshi Kiya
- Journal Title
  
  APSIPA Transactions on Signal and Information Processing
  
  Volume: 12 Pages: 1-22
- DOI
  10.1561/116.00000074
- Peer Reviewed / Open Access
[Journal Article] Joint Analysis of Acoustic Scenes and Sound Events Based on Multitask Learning with Dynamic Weight Adaptation2023
- Author(s)
  Kayo Nada, Keisuke Imoto, and Takao Tsuchiya
- Journal Title
  
  Acoustical Science and Technology
  
  Volume: 44 Pages: 167-175
- DOI
  10.1250/ast.44.167
- Peer Reviewed / Open Access
[Journal Article] Augmentation of Various Speed Data by Controlling Frame Overlap for Acoustic Traffic Monitoring2023
- Author(s)
  Tomohiro Takahashi, Yuma Kinoshita, Natsuki Ueno, Yukoh Wakabayashi, Nobutaka Ono, Jun Honda, Seishi Fukuma, Aoi Kitamori, Hiroshi Nakagawa
- Journal Title
  
  Proc. APSIPA ASC
  
  Volume: - Pages: 2068-2072
- DOI
  10.1109/APSIPAASC58517.2023.10317558
- Peer Reviewed
[Journal Article] Automatic Call Classification of Autism Model Marmosets by Deep Learning and Analysis of Their Vocal Development2023
- Author(s)
  Minato Uesaka, Hideto Kawauchi, Kouei Yamaoka, Yukoh Wakabayashi, Yuma Kinoshita, Nobutaka Ono, Jun Noguchi, Satoshi Watanabe, Noritaka Ichinohe, Seico Benner, Hidenori Yamasue
- Journal Title
  
  Proc. APSIPA ASC
  
  Volume: - Pages: 2214-2218
- DOI
  10.1109/APSIPAASC58517.2023.10317121
- Peer Reviewed
[Journal Article] Exploring the integration of speech separation and recognition with self-supervised learning representation2023
- Author(s)
  Yoshiki Masuyama, Xuankai Chnag, Wangyou Zhang, Samuele Cornell, Zhong-Qiu Wang, Nobutaka Ono, Yanmin Qian, Shinji Watanabe
- Journal Title
  
  Proc. WASPAA
  
  Volume: - Pages: 1-5
- DOI
  10.1109/WASPAA58266.2023.10248096
- Peer Reviewed / Int'l Joint Research
[Journal Article] Signal Reconstruction from Mel-spectrogram Based on Bi-level Consistency of Full-band Magnitude and Phase2023
- Author(s)
  Yoshiki Masuyama, Natsuki Ueno, Nobutaka Ono
- Journal Title
  
  Proc. WASPAA
  
  Volume: - Pages: 1-5
- DOI
  10.1109/WASPAA58266.2023.10248111
- Peer Reviewed
[Journal Article] Acoustic Traffic Monitoring Based on Deep Neural Network Trained by Stereo-Recorded Sound and Sensor Data2023
- Author(s)
  Tomohiro Takahashi, Yuma Kinoshita, Yukoh Wakabayashi, and Nobutaka Ono, Jun Honda, Seishi Fukuma, Aoi Kitamori and Hiroshi Nakagawa
- Journal Title
  
  Proc. EUSIPCO
  
  Volume: - Pages: 1-5
- DOI
  10.23919/EUSIPCO58844.2023.10290031
- Peer Reviewed
[Journal Article] Unaliasing of Recorded Signals Based on Blind Source Separation2023
- Author(s)
  Yuki Nakamura, Nobutaka Ono, Taishi Nakashima, Ryoichi Miyazaki
- Journal Title
  
  Proc. EUSIPCO
  
  Volume: - Pages: 1-5
- DOI
  10.23919/EUSIPCO58844.2023.10290097
- Peer Reviewed
[Journal Article] Fast Online Source Steering Algorithm for Tracking Single Moving Source Using Online Independent Vector Analysis2023
- Author(s)
  Taishi Nakashima, Rintaro Ikeshita, Nobutaka Ono, Shoko Araki, and Tomohiro Nakatani
- Journal Title
  
  Proc. ICASSP
  
  Volume: - Pages: 1-5
- DOI
  10.1109/ICASSP49357.2023.10094962
- Peer Reviewed
[Journal Article] Joint Analysis of Acoustic Scenes and Sound Events Based on Semi-Supervised Approach2023
- Author(s)
  Ami Igarashi, Shunsuke Tsubaki, Daisuke Niizumi, Daiki Takeuchi, Noboru Harada, and Keisuke Imoto
- Journal Title
  
  Proc. APSIPA ASC
  
  Volume: - Pages: 2050-2056
- DOI
  10.1109/APSIPAASC58517.2023.10317353
- Peer Reviewed
[Presentation] 非負値行列因子分解を用いた音光変換デバイス「ブリンキー」の光信号飽和時における伝達係数と信号の同時推定2024
- Author(s)
  西田光佑，植野夏樹，小野順貴，北村大地
- Organizer
  SPEASIPワークショップ
[Presentation] 日常会話の発話重畳分析と非同期分散録音に対するオンライン独立ベクトル分析による分離の検討2024
- Author(s)
  南木春希，中嶋大志，山岡洸瑛，若林佑幸，小野順貴
- Organizer
  SPEASIPワークショップ
[Presentation] これから始める環境音分析・合成2024
- Author(s)
  井本桂右
- Organizer
  SPEASIPワークショップ
- Invited
[Presentation] アノテータごとのばらつきを考慮した音響イベント検出2024
- Author(s)
  古賀直樹, 坂東宣昭, 井本桂右
- Organizer
  情報処理学会第86回全国大会
[Presentation] スマートフォン上での音光変換を用いた音響情報のデジタル伝送2024
- Author(s)
  今村瑛月, 河村隆生, 山田健太, 植野夏樹, 小野順貴
- Organizer
  日本音響学会2024年春季研究発表会
[Presentation] 相互相関と動的計画法を用いた欠損のある信号のブラインド同期2024
- Author(s)
  竹内駿人, 河村隆生, 植野夏樹, 小野順貴
- Organizer
  日本音響学会2024年春季研究発表会
[Presentation] 残響環境下におけるエイリアス成分の分離に有効なパーミュテーション解法の検討2024
- Author(s)
  中村優希, 宮崎亮一, 小野順貴
- Organizer
  日本音響学会2024年春季研究発表会
[Presentation] 環境音分析における事前学習済みモデルのバイアス調査2024
- Author(s)
  井上かほり, 井本桂右
- Organizer
  日本音響学会2024年春季研究発表会
[Presentation] フレームシフトの調整による低速度域車両走行音のデータ拡張2023
- Author(s)
  高橋知宏, 木下裕磨, 植野夏樹, 若林佑幸, 小野順貴, 本多潤, 福馬誠士, 北森葵, 中川浩
- Organizer
  日本音響学会2023年秋季研究発表会
[Presentation] 距離に基づく音源分離を用いたシングルチャンネル環境音分類2023
- Author(s)
  小倉稜也, 井本桂右, 貴家仁志, 塩田さやか
- Organizer
  日本音響学会2023年秋季研究発表会
[Presentation] Voice-to-foley: 環境音を模倣した音声を入力とする環境音合成2023
- Author(s)
  岡本悠希, 井本桂右, 高道慎之介, 永瀬亮太郎, 福森隆寛, 山下洋一
- Organizer
  日本音響学会2023年秋季研究発表会

2023 Fiscal Year Annual Research Report

Innovation of speech / acoustic scene recognition based on distributed acoustic sensing and asynchronous sequence modeling

Principal Investigator

小野 順貴 東京都立大学, システムデザイン研究科, 教授 (80334259)

Research Products

[Int'l Joint Research] Carnegie Mellon University(米国)

Country Name

Counterpart Institution

[Journal Article] Refining Knowledge Transfer on Audio-Image Temporal Agreement for Audio-Text Cross Retrieval2024

Author(s)

Journal Title

[Journal Article] Efficient Joint Optimization of Sampling Rate Offsets Using Entire Multichannel Signal2023

Author(s)

Journal Title

DOI

[Journal Article] Objective Assessment of Autism Spectrum Disorder Based on Performance in Structured Interpersonal Acting-Out Tasks with Prosodic Stability and Variability2023

Author(s)

Journal Title

DOI

[Journal Article] Causal and Relaxed-Distortionless Response Beamforming for Online Target Source Extraction2023

Author(s)

Journal Title

DOI

[Journal Article] Minimum-Spanning-Tree-Based Time Delay Estimation Robust to Outliers2023

Author(s)

Journal Title

DOI

[Journal Article] Acoustic Object Canceller: Removing Known Signal Using Blind Syncronization2023

Author(s)

Journal Title

DOI

[Journal Article] Sound Field Interpolation for Rotation-invariant Multichannel Array Signal Processing2023

Author(s)

Journal Title

DOI

[Journal Article] Missing data completion of multi-channel signals using autoencoder for acoustic scene classification2023

Author(s)

Journal Title

DOI

[Journal Article] Joint Analysis of Acoustic Scenes and Sound Events Based on Multitask Learning with Dynamic Weight Adaptation2023

Author(s)

Journal Title

DOI

[Journal Article] Augmentation of Various Speed Data by Controlling Frame Overlap for Acoustic Traffic Monitoring2023

Author(s)

Journal Title

DOI

[Journal Article] Automatic Call Classification of Autism Model Marmosets by Deep Learning and Analysis of Their Vocal Development2023

Author(s)

Journal Title

DOI

[Journal Article] Exploring the integration of speech separation and recognition with self-supervised learning representation2023

Author(s)

Journal Title

DOI

[Journal Article] Signal Reconstruction from Mel-spectrogram Based on Bi-level Consistency of Full-band Magnitude and Phase2023

Author(s)

Journal Title

DOI

[Journal Article] Acoustic Traffic Monitoring Based on Deep Neural Network Trained by Stereo-Recorded Sound and Sensor Data2023

Author(s)

Journal Title

DOI

[Journal Article] Unaliasing of Recorded Signals Based on Blind Source Separation2023

Author(s)

Journal Title

DOI

[Journal Article] Fast Online Source Steering Algorithm for Tracking Single Moving Source Using Online Independent Vector Analysis2023

Author(s)

Journal Title

DOI

[Journal Article] Joint Analysis of Acoustic Scenes and Sound Events Based on Semi-Supervised Approach2023

Author(s)

Journal Title

DOI

[Presentation] 非負値行列因子分解を用いた音光変換デバイス「ブリンキー」の光信号飽和時における伝達係数と信号の同時推定2024

Author(s)

Organizer

[Presentation] 日常会話の発話重畳分析と非同期分散録音に対するオンライン独立ベクトル分析による分離の検討2024

Author(s)

小野順貴東京都立大学, システムデザイン研究科, 教授 (80334259)