研究概要 |
音声認識の実環境下での精度を高めることを目標に,周囲の環境に関する情報(雑音)を積極的に取り入れた新たな手法について検討する.音声認識では発話用マイクから得られる情報のみを活用してきたが,センサーネットワーク環境では,より積極的に環境情報を活用することができると考えられる. 本研究では,装着型マイク(ユーザマイク)および環境設置型マイク(環境マイク)を用い,環境マイクを通じて観測した雑音を元に,ユーザマイクで収録された雑音を抑圧する手法を提案する.従来法では困難であった変動する雑音も抑圧が可能である.提案法ではスペクトルサブトラクション(SS)法をベースにし,SS法で用いられる推定された雑音の代わりに,環境マイクで観測されたスペクトルをあらかじめ推定しておいた変換行列で変換,すなわち,空間特性を補正したスペクトルを雑音として用いた. また,2種類のマイクを使うため,時刻同期する必要がある.自動推定で時刻同期を行うことを検討した.音声特徴量での距離を計算,最も距離が小さくなった時を最も近づいた時とした.音声特徴量や前処理を取り入れるなどを検討した.音声認識と同様な特徴量ではどの場合でも,時刻同期については数フレームのずれが観測された.雑音抑圧後の音声認識性能では,従来法SS法に比べ,10~20%程度の誤り改善率が得られた.特に,変動する雑音において,効果が高いことが分かった. 今後の予定として,より近年,一般的になっている雑音抑圧手法との比較検討や,スマートフォンなどの無線LANが使える小型デバイスを利用した実際のシステム構築およびその上での検討を考えている.
|