研究概要 |
公開予定のバイモーダル音声認識評価用データベースCENSREC-1-AV,及びCENSREC-2-AVに収めるためのバイモーダル音声データの収録を行った.まず,CENSREC-1-AV用として,室内において95名,CENSREC-2-AV用として,自動車内において57名の話者のバイモーダル音声の収録を行った.映像の収録は,カラーカメラの他に,夜間やトンネル内などの薄暗い環境においても撮影が可能な近赤外カメラも用いて行った.音声の収録は,室内では発話者の襟元と胸元に無指向性マイクを取り付けて,車内ではヘッドセットの接話マイクと運転席天井に取り付けた遠隔マイクを用いて行った.さまざまな雑音環境のバイモーダル音声を収録するために,アイドリング,市街地走行,高速走行,エアコンスイッチオン,窓開け,背景音楽再生等,収録時の背景雑音の条件を変化させた.収録した顔映像から,顔検出技術に優れた企業から提供を受けたアルゴリズムを利用して唇の両端を検出し,バイモーダル音声認識に必要な口唇領域を抽出した.また,公開するバイモーダル音声認識性能評価基盤において,評価における比較の基準となるベースラインの認識結果の実験条件について検討した.予備実験より,画像の特徴量としては,寄与率が80%になる次数までの主成分得点とその動的特徴量,及びオプティカルフローとその動的特徴量を利用することとし,音声の特徴量としては,CENSREC-1と同様に,MFCCとその動的特徴量を用いることとした.
|