研究概要 |
今年度は, 昨年度までに収集したバイモーダル音声データを共通評価基盤として公開するための整備を進めた. 公開する共通評価基盤は, 室内で収録した音声・映像データに事後的に雑音を重畳するシミュレーションデータとその音声認識評価スクリプト群のセットCENSREC-1-AVと, 車内で収録した実環境の音声・映像データとその評価スクリプト群のセットCENSREC-2-AVの2種類であるが, これらのうち, まずCENSREC-1-AVのデータ整備を進めた. 顔映像データは, カラーカメラと近赤外カメラで収録したものの間で開始・終了時刻にズレがあるため, これらの同期を取るため, それぞれに同期して収録されている音声データ同士の振幅の相関を計算し, 相関値が最大となる時刻を基準に同期を取り, データの切り出しを行った. また音声の発話前後約0.5秒のマージンをつけて, VADのアルゴリズムにより発話区間の切り出しを行った. さらに, 映像から自動検出した唇の位置の精度を目視により確認し, オプティカルフローを特徴量として用いるため, 唇が全発話区間を通じてはみ出さない位置で切り出しを行った. また, 最終的にNIIを通じて公開・配布するDVDに収めるデータサイズの概算を行つた結果, DVD約2枚に, 共通評価基盤全体を収録できることを確認した. 研究再開後は, 引き続きCENSREC-1-AVのデータの公開準備を行い, 続いてCENSREC-2-AVも同様の手順で公開準備を行う予定である.
|