A Unified Computational Model for Audio-Visual Recognition of Human Social Interaction

研究課題

研究課題/領域番号	20K19833
研究種目	若手研究
配分区分	基金
審査区分	小区分61010:知覚情報処理関連
研究機関	国立研究開発法人理化学研究所
研究代表者	Nugraha Aditya (Arie) 国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (60858025)
研究期間 (年度)	2020-04-01 – 2023-03-31
研究課題ステータス	完了 (2022年度)
配分額 *注記	4,290千円 (直接経費: 3,300千円、間接経費: 990千円) 2022年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2021年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円) 2020年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
キーワード	Audio-visual processing / Smart glasses / Adaptive system / Blind source separation / Speech enhancement / Speech recognition / Neural spatial model / Generative model / Normalizing flow / Dereverberation / Deep spatial model / deep speech model / deep generative model / latent variable model / variational autoencoder / normalizing flow / audio-visual processing / probabilistic model / speech enhancement / speaker diarization
研究開始時の研究の概要	We aim to form a unified computational model of audio-visual scene understanding that mimics human’s capability in exploiting audio and visual cues. We expect the model can improve front-end processes (e.g., speech enhancement) and back-end processes (e.g., speech recognition) in a mutual manner.
研究成果の概要	人間の言語コミュニケーションを理解するために、視聴覚情報処理に関する確率的な計算モデルを策定することを目的とした。音声強調に利用するために、話者・音素特徴から音声信号を生成するモデルを提案した。また、古典的なIVAや最先端のFastMNMFなどの時不変のブラインド音源分離（BSS）手法に対して、Normalizing Flowに基づく原理的な時不変の拡張を紹介した。最後に、スマートグラスを用いた適応的なオーディオビジュアル音声強調を開発した。カメラ映像の指向性情報によって制御され、高速な環境依存型ビームフォーミングと低速な環境依存型BSSによって、ロバストで低遅延な音声強調を実現した。
研究成果の学術的意義や社会的意義	One key achievement is the prototype of adaptive speech enhancement for real-time speech transcription with head-worn smart glasses. It involves challenging egocentric information processing with non-stationary sensors. This technology may benefit older adults and people with hearing impairment.

報告書

(4件)

研究成果
(24件)

すべて 2022 2021 2020 その他

すべて雑誌論文 (6件) (うち国際共著 6件、査読あり 6件、オープンアクセス 4件) 学会発表 (14件) (うち国際学会 11件) 備考 (4件)

[雑誌論文] Generalized Fast Multichannel Nonnegative Matrix Factorization Based on Gaussian Scale Mixtures for Blind Source Separation2022
- 著者名/発表者名
  Fontaine Mathieu, Sekiguchi Kouhei, Nugraha Aditya Arie, Bando Yoshiaki, Yoshii Kazuyoshi
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 30 ページ: 1734-1748
- DOI
  10.1109/taslp.2022.3172631
- 関連する報告書
  2022 実績報告書
- 査読あり / 国際共著
[雑誌論文] Autoregressive Moving Average Jointly-Diagonalizable Spatial Covariance Analysis for Joint Source Separation and Dereverberation2022
- 著者名/発表者名
  Sekiguchi Kouhei, Bando Yoshiaki, Nugraha Aditya Arie, Fontaine Mathieu, Yoshii Kazuyoshi, Kawahara Tatsuya
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 30 ページ: 2368-2382
- DOI
  10.1109/taslp.2022.3190734
- 関連する報告書
  2022 実績報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Neural Full-Rank Spatial Covariance Analysis for Blind Source Separation2021
- 著者名/発表者名
  Yoshiaki Bando, Kouhei Sekiguchi, Yoshiki Masuyama, Aditya Arie Nugraha, Mathieu Fontaine, Kazuyoshi Yoshii
- 雑誌名
  
  IEEE Signal Processing Letters
  
  巻: 28 ページ: 1670-1674
- DOI
  10.1109/lsp.2021.3101699
- 関連する報告書
  2021 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] A Flow-Based Deep Latent Variable Model for Speech Spectrogram Modeling and Enhancement2020
- 著者名/発表者名
  Nugraha Aditya Arie、Sekiguchi Kouhei、Yoshii Kazuyoshi
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 28 ページ: 1104-1117
- DOI
  10.1109/taslp.2020.2979603
- 関連する報告書
  2020 実施状況報告書
- 査読あり / 国際共著
[雑誌論文] Fast Multichannel Nonnegative Matrix Factorization With Directivity-Aware Jointly-Diagonalizable Spatial Covariance Matrices for Blind Source Separation2020
- 著者名/発表者名
  Kouhei Sekiguchi, Yoshiaki Bando, Aditya Arie Nugraha, Kazuyoshi Yoshii, Tatsuya Kawahara
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 28 ページ: 2610-2625
- DOI
  10.1109/taslp.2020.3019181
- 関連する報告書
  2020 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Flow-Based Independent Vector Analysis for Blind Source Separation2020
- 著者名/発表者名
  Aditya Arie Nugraha, Kouhei Sekiguchi, Mathieu Fontaine, Yoshiaki Bando, Kazuyoshi Yoshii
- 雑誌名
  
  IEEE Signal Processing Letters
  
  巻: 27 ページ: 2173-2177
- DOI
  10.1109/lsp.2020.3039944
- 関連する報告書
  2020 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[学会発表] Flow-Based Fast Multichannel Nonnegative Matrix Factorization for Blind Source Separation2022
- 著者名/発表者名
  Nugraha Aditya Arie、Sekiguchi Kouhei、Fontaine Mathieu、Bando Yoshiaki、Yoshii Kazuyoshi
- 学会等名
  IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Elliptically Contoured Alpha-Stable Representation for MUSIC-Based Sound Source Localization2022
- 著者名/発表者名
  Fontaine Mathieu、Di Carlo Diego、Sekiguchi Kouhei、Nugraha Aditya Arie、Bando Yoshiaki、Yoshii Kazuyoshi
- 学会等名
  European Signal Processing Conference (EUSIPCO)
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Joint Localization and Synchronization of Distributed Camera-Attached Microphone Arrays for Indoor Scene Analysis2022
- 著者名/発表者名
  Sumura Yoshiaki、Sekiguchi Kouhei、Bando Yoshiaki、Nugraha Aditya Arie、Yoshii Kazuyoshi
- 学会等名
  International Workshop on Acoustic Signal Enhancement (IWAENC)
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] DNN-Free Low-Latency Adaptive Speech Enhancement Based on Frame-Online Beamforming Powered by Block-Online FastMNMF2022
- 著者名/発表者名
  Nugraha Aditya Arie、Sekiguchi Kouhei、Fontaine Mathieu、Bando Yoshiaki、Yoshii Kazuyoshi
- 学会等名
  International Workshop on Acoustic Signal Enhancement (IWAENC)
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Direction-Aware Joint Adaptation of Neural Speech Enhancement and Recognition in Real Multiparty Conversational Environments2022
- 著者名/発表者名
  Du Yicheng、Nugraha Aditya Arie、Sekiguchi Kouhei、Bando Yoshiaki、Fontaine Mathieu、Yoshii Kazuyoshi
- 学会等名
  Annual Conference of the International Speech Communication Association (Interspeech)
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Direction-Aware Adaptive Online Neural Speech Enhancement with an Augmented Reality Headset in Real Noisy Conversational Environments2022
- 著者名/発表者名
  Sekiguchi Kouhei、Nugraha Aditya Arie、Du Yicheng、Bando Yoshiaki、Fontaine Mathieu、Yoshii Kazuyoshi
- 学会等名
  IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Alpha-Stable Autoregressive Fast Multichannel Nonnegative Matrix Factorization for Joint Speech Enhancement and Dereverberation2021
- 著者名/発表者名
  Fontaine Mathieu、Sekiguchi Kouhei、Nugraha Aditya Arie、Bando Yoshiaki、Yoshii Kazuyoshi
- 学会等名
  INTERSPEECH
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] Autoregressive Fast Multichannel Nonnegative Matrix Factorization For Joint Blind Source Separation And Dereverberation2021
- 著者名/発表者名
  Sekiguchi Kouhei、Bando Yoshiaki、Nugraha Aditya Arie、Fontaine Mathieu、Yoshii Kazuyoshi
- 学会等名
  ICASSP
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] Determined Blind Source Separation Based on NF-IVA with Time-Varying Linear Transformations2021
- 著者名/発表者名
  Nugraha Aditya Arie、Sekiguchi Kouhei、Fontaine Mathieu、Bando Yoshiaki、Yoshii Kazuyoshi
- 学会等名
  ASJ (Spring Meeting)
- 関連する報告書
  2021 実施状況報告書
[学会発表] Joint Blind Source Separation and Dereverberation Based on ARMA-FastMNMF2021
- 著者名/発表者名
  Sekiguchi Kouhei、Bando Yoshiaki、Nugraha Aditya Arie、Fontaine Mathieu、Yoshii Kazuyoshi
- 学会等名
  ASJ (Spring Meeting)
- 関連する報告書
  2021 実施状況報告書
[学会発表] Unsupervised Source Separation with Deep Spatial Models2021
- 著者名/発表者名
  Nugraha Aditya Arie、Sekiguchi Kouhei、Fontaine Mathieu、Bando Yoshiaki、Yoshii Kazuyoshi
- 学会等名
  RIKEN-AIP Open Seminar
- 関連する報告書
  2021 実施状況報告書
[学会発表] Unsupervised Robust Speech Enhancement Based on Alpha-Stable Fast Multichannel Nonnegative Matrix Factorization2020
- 著者名/発表者名
  Fontaine Mathieu、Sekiguchi Kouhei、Nugraha Aditya Arie、Yoshii Kazuyoshi
- 学会等名
  INTERSPEECH
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] Fast Multichannel Correlated Tensor Factorization for Blind Source Separation2020
- 著者名/発表者名
  Yoshii Kazuyoshi、Sekiguchi Kouhei、Bando Yoshiaki、Fontaine Mathieu、Nugraha Aditya Arie
- 学会等名
  EUSIPCO
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] Semi-supervised Multichannel Speech Separation Based on a Phone- and Speaker-Aware Deep Generative Model of Speech Spectrograms2020
- 著者名/発表者名
  Du Yicheng、Sekiguchi Kouhei、Bando Yoshiaki、Nugraha Aditya Arie、Fontaine Mathieu、Yoshii Kazuyoshi、Kawahara Tatsuya
- 学会等名
  EUSIPCO
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[備考] Demo web page for NF-FastMNMF
- URL
  https://aanugraha.github.io/demo/nffastmnmf/
- 関連する報告書
  2022 実績報告書
[備考] Demo web page for Neural FCA
- URL
  https://ybando.jp/projects/spl2021/
- 関連する報告書
  2021 実施状況報告書
[備考] Demo web page for NF-IVA
- URL
  https://aanugraha.github.io/demo/nfiva/
- 関連する報告書
  2021 実施状況報告書
[備考] Demo web page for GF-VAE
- URL
  https://aanugraha.github.io/demo/gfvae/
- 関連する報告書
  2021 実施状況報告書

A Unified Computational Model for Audio-Visual Recognition of Human Social Interaction

研究代表者

Nugraha Aditya (Arie) 国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (60858025)

4,290千円 (直接経費: 3,300千円、間接経費: 990千円)

報告書

研究成果

[雑誌論文] Generalized Fast Multichannel Nonnegative Matrix Factorization Based on Gaussian Scale Mixtures for Blind Source Separation2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Autoregressive Moving Average Jointly-Diagonalizable Spatial Covariance Analysis for Joint Source Separation and Dereverberation2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Neural Full-Rank Spatial Covariance Analysis for Blind Source Separation2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] A Flow-Based Deep Latent Variable Model for Speech Spectrogram Modeling and Enhancement2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Fast Multichannel Nonnegative Matrix Factorization With Directivity-Aware Jointly-Diagonalizable Spatial Covariance Matrices for Blind Source Separation2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Flow-Based Independent Vector Analysis for Blind Source Separation2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] Flow-Based Fast Multichannel Nonnegative Matrix Factorization for Blind Source Separation2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Elliptically Contoured Alpha-Stable Representation for MUSIC-Based Sound Source Localization2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Joint Localization and Synchronization of Distributed Camera-Attached Microphone Arrays for Indoor Scene Analysis2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] DNN-Free Low-Latency Adaptive Speech Enhancement Based on Frame-Online Beamforming Powered by Block-Online FastMNMF2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Direction-Aware Joint Adaptation of Neural Speech Enhancement and Recognition in Real Multiparty Conversational Environments2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Direction-Aware Adaptive Online Neural Speech Enhancement with an Augmented Reality Headset in Real Noisy Conversational Environments2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Alpha-Stable Autoregressive Fast Multichannel Nonnegative Matrix Factorization for Joint Speech Enhancement and Dereverberation2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Autoregressive Fast Multichannel Nonnegative Matrix Factorization For Joint Blind Source Separation And Dereverberation2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Determined Blind Source Separation Based on NF-IVA with Time-Varying Linear Transformations2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Joint Blind Source Separation and Dereverberation Based on ARMA-FastMNMF2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Unsupervised Source Separation with Deep Spatial Models2021

著者名/発表者名

学会等名

関連する報告書