研究概要 |
音声対話システムでは,入力される音声が音声認識対象であるのが一般的である.認識対象でない音声が観測された場合,適切に処理できず.ユーザから見ると不自然な応答になる.これは周囲やユーザがどのような状況であったかの考慮があまりなされていないことが問題である.そこで,音声自体をできるだけ利用して,周囲状況を推定し,システム全体でより適切な応答ができるような技術を検討する.具体的には,単一マイクロホンにおいて,音声から空間伝達特性を推定することで,発話者からマイクまでのおよその距離を推定する. 前年度までに基本的な検討を行ったアルゴリズムの検証を引き続き行った.マイクロホンより0.2, 1, 2, 3, 4, 5 m離れた位置でのインパルス応答をそれぞれの位置で複数,収集した.それらのいくつかをテンプレートとし,残りを評価用音声データにたたみ込むことにより,シミュレーションで距離に依存した評価データを作成した.入力された音声から推定された空間伝達特性との比較を行って,最も近いテンプレートの位置を推定された距離とした.距離を1 mまでと,それより遠くに分けて評価を行うと,8割程度の精度が得られることが分かった.ここまでの成果を論文化し,電子情報通信学会へ投稿を行った.しかし,アルゴリズム的にHMMを使ったより複雑な場合にどうか,雑音環境ではどうか,など,これからの検討事項としていたことを求められ,残念ながら,受理されなかった.そこで,より先の検討を進めることとし,実環境での周囲雑音の収録を行った.一般的な雑音抑圧手法による評価を行い,実験環境を整えた.今後,それらのデータベースを用いて評価を行う.さらには,アルゴリズム上の改良を加えては評価を繰り返して行く予定である.
|