2022 年度研究成果報告書

A Unified Computational Model for Audio-Visual Recognition of Human Social Interaction

研究課題

PDF

研究課題/領域番号	20K19833
研究種目	若手研究
配分区分	基金
審査区分	小区分61010:知覚情報処理関連
研究機関	国立研究開発法人理化学研究所
研究代表者	Nugraha Aditya 国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (60858025)
研究期間 (年度)	2020-04-01 – 2023-03-31
キーワード	Audio-visual processing / Smart glasses / Adaptive system / Blind source separation / Speech enhancement / Speech recognition / Neural spatial model / Generative model
研究成果の概要	人間の言語コミュニケーションを理解するために、視聴覚情報処理に関する確率的な計算モデルを策定することを目的とした。音声強調に利用するために、話者・音素特徴から音声信号を生成するモデルを提案した。また、古典的なIVAや最先端のFastMNMFなどの時不変のブラインド音源分離（BSS）手法に対して、Normalizing Flowに基づく原理的な時不変の拡張を紹介した。最後に、スマートグラスを用いた適応的なオーディオビジュアル音声強調を開発した。カメラ映像の指向性情報によって制御され、高速な環境依存型ビームフォーミングと低速な環境依存型BSSによって、ロバストで低遅延な音声強調を実現した。
自由記述の分野	Audio-visual speech enhancement for smart glasses
研究成果の学術的意義や社会的意義	One key achievement is the prototype of adaptive speech enhancement for real-time speech transcription with head-worn smart glasses. It involves challenging egocentric information processing with non-stationary sensors. This technology may benefit older adults and people with hearing impairment.