研究課題
近年、遠隔発話音声受音の最有力候補として複数のマイクロホン素子を利用するマイクロホンアレーを用いた音声インタフェースの構築が高い注目を浴びている。現在までのマイクロホンアレーを用いたハンズフリー音声認識・音声コミュニケーションの研究では、計算機上でのシミュレーションや実験室などの人為的に制御された環境においては、ある程度の成果を収めている。しかしながら、実際の環境(我々の生活環境)における性能は不十分であり、実用化は困難な状況であった。実際問題として人と人とのコミュニケーションでは、聴覚だけでなく視覚情報も最大限有効利用することにより、スムーズなコミュニケーションを実現している。そこで本研究では、平成14年度から平成16年度の3年間において、空間内の音情報だけでなく映像情報を積極的に利用することにより、環境内の雑音や残響に頑健な発話者同定やハンズフリー音声認識・音声コミュニケーションの実現を目指すものである。平成16年度は、マイクロホンアレーを用いて獲得した音情報とビデオカメラを用いて獲得した映像情報を相補的に有機統合して、発話者の位置だけでなくその発話者の音声を高精度に抽出することも行い、さらに高精度なハンズフリー音声コミュニケーションシステムの構築を行った。またシステムが雑音環境下でも高精度に動作するよう、対雑音性においても重点的に研究を行った。本年度の本研究成果として、学術雑誌論文5件、国際会議5件の採録を得た。本研究期間(3年間)において音・映像情報を相補的に結合したハンズフリー音声コミュニケーションシステムの構築を試み、ビデオカメラから取得した映像情報とマイクロホンアレーから取得した音情報を相補的に結合することによって実機にてリアルタイムで動作可能なシステムを構築することができた。
すべて 2005 2004
すべて 雑誌論文 (6件)
GESTS International Transaction on Speech Science and Engineering Vol.2, No.1(掲載予定)
GESTS International Transaction on Acoustic Science and Engineering Vol.3, No.1(掲載予定)
Joint Workshop on Hands-free Speech Communication and Microphone Array (発表予定)
GESTS International Transaction on Speech Science and Engineering Vol.1, No.2
ページ: 84-93
ページ: 72-83
Proc.IEEE Workshop on Multimedia Signal Processing (MMSP2004)
ページ: 63-66