研究課題/領域番号 |
20K19833
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 国立研究開発法人理化学研究所 |
研究代表者 |
Nugraha Aditya (Arie) 国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (60858025)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2022年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2021年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2020年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
|
キーワード | Audio-visual processing / Smart glasses / Adaptive system / Blind source separation / Speech enhancement / Speech recognition / Neural spatial model / Generative model / Normalizing flow / Dereverberation / Deep spatial model / deep speech model / deep generative model / latent variable model / variational autoencoder / normalizing flow / audio-visual processing / probabilistic model / speech enhancement / speaker diarization |
研究開始時の研究の概要 |
We aim to form a unified computational model of audio-visual scene understanding that mimics human’s capability in exploiting audio and visual cues. We expect the model can improve front-end processes (e.g., speech enhancement) and back-end processes (e.g., speech recognition) in a mutual manner.
|
研究成果の概要 |
人間の言語コミュニケーションを理解するために、視聴覚情報処理に関する確率的な計算モデルを策定することを目的とした。音声強調に利用するために、話者・音素特徴から音声信号を生成するモデルを提案した。また、古典的なIVAや最先端のFastMNMFなどの時不変のブラインド音源分離(BSS)手法に対して、Normalizing Flowに基づく原理的な時不変の拡張を紹介した。最後に、スマートグラスを用いた適応的なオーディオビジュアル音声強調を開発した。カメラ映像の指向性情報によって制御され、高速な環境依存型ビームフォーミングと低速な環境依存型BSSによって、ロバストで低遅延な音声強調を実現した。
|
研究成果の学術的意義や社会的意義 |
One key achievement is the prototype of adaptive speech enhancement for real-time speech transcription with head-worn smart glasses. It involves challenging egocentric information processing with non-stationary sensors. This technology may benefit older adults and people with hearing impairment.
|