研究概要 |
音声認識の実環境下での精度を高めることを目標に,周囲の環境に関する情報(雑音)を積極的に取り入れた新たな手法について検討する.音声認識では発話用マイクから得られる情報のみを活用してきたが,センサーネットワーク環境では,より積極的に環境情報を活用することができると考えられる.本研究では,装着型マイク(ユーザマイク)および環境設置型マイク(環境マイク)を用い,環境マイクを通じて観測した雑音を元に,ユーザマイクで収録された雑音を抑圧する手法を提案する.従来法では困難であった変動する雑音も抑圧が可能である.提案法ではスペクトルサブトラクション(SS)法をベースにし,SS法で用いられる推定された雑音の代わりに,環境マイクで観測されたスペクトルをあらかじめ推定しておいた変換行列で変換,すなわち,空間特性を補正したスペクトルを雑音として用いた.この実験では,2つのマイクの時刻同期については視察で行っていたものを,今回,自動推定で時刻同期を行うことを検討した.音声特徴量での距離を計算,最も距離が小さくなった時を最も近づいた時とした.数フレームのずれが観測された.この時の雑音抑圧後の単語認識率は,若干,よいか,ほぼ従来法と同じであった.おそらく2つのマイクで録音された認識対象の音声に対する処理をもっと正確にすべきだと思われる.自動同期の手前までを国際会議INTERSPEECH2010へ投稿した.自動同期の問題を今後,より正確にできるよう,検討する予定である.
|