• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2022 年度 研究成果報告書

A Unified Computational Model for Audio-Visual Recognition of Human Social Interaction

研究課題

  • PDF
研究課題/領域番号 20K19833
研究種目

若手研究

配分区分基金
審査区分 小区分61010:知覚情報処理関連
研究機関国立研究開発法人理化学研究所

研究代表者

Nugraha Aditya  国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (60858025)

研究期間 (年度) 2020-04-01 – 2023-03-31
キーワードAudio-visual processing / Smart glasses / Adaptive system / Blind source separation / Speech enhancement / Speech recognition / Neural spatial model / Generative model
研究成果の概要

人間の言語コミュニケーションを理解するために、視聴覚情報処理に関する確率的な計算モデルを策定することを目的とした。音声強調に利用するために、話者・音素特徴から音声信号を生成するモデルを提案した。また、古典的なIVAや最先端のFastMNMFなどの時不変のブラインド音源分離(BSS)手法に対して、Normalizing Flowに基づく原理的な時不変の拡張を紹介した。最後に、スマートグラスを用いた適応的なオーディオビジュアル音声強調を開発した。カメラ映像の指向性情報によって制御され、高速な環境依存型ビームフォーミングと低速な環境依存型BSSによって、ロバストで低遅延な音声強調を実現した。

自由記述の分野

Audio-visual speech enhancement for smart glasses

研究成果の学術的意義や社会的意義

One key achievement is the prototype of adaptive speech enhancement for real-time speech transcription with head-worn smart glasses. It involves challenging egocentric information processing with non-stationary sensors. This technology may benefit older adults and people with hearing impairment.

URL: 

公開日: 2024-01-30  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi