研究概要 |
昨年度までに収録・整備した音声・映像データに対して雑音を重畳し,特徴抽出と認識性能評価基準となるベースラインの認識実験を進め,データベース配布の準備を行った.音声の雑音としては,ドライバの襟元に装着した無指向性マイクで収録した市街地走行中の車内雑音を室内収録音声に重畳し,画像の雑音としては,車載カメラで撮影した映像から算出したガンマ値の変動を元に,室内で撮影したカラーおよび近赤外映像の各画像フレームに対してガンマ変換を行うことで雑音環境を模擬した.ベースラインの音声特徴量は,メルフィルタバンクケプストラム係数とその動的特徴量,画像特徴量は,口唇画像の約1000次元のベクトルから抽出した寄与率約85%の主成分得点とその動的特徴量とした.音声と映像の特徴量はマルチストリームの隠れマルコフモデルで初期統合に基づいてモデル化し,ストリーム重みを変化させ,最も認識性能が高くなるストリーム重みを選択した.データベースの利用者は,このベースラインの認識率と比較することで,提案するバイモーダル音声認識の特徴抽出手法や認識手法の性能を評価できる仕組みとなっている.雑音の重畳や,音声・画像の特徴抽出のプログラム,および隠れマルコフモデルツールキットに準じた認識評価用スクリプトを作成し,マニュアルや評価用バイモーダルデータと併せて,DVDメディアにて配布する準備が整った.これらは,学会等を通じてさまざまな研究機関に配布される予定である.
|