研究概要 |
音声対話システムでは,入力される音声が音声認識対象であるとして作られているのが一般的である.認識対象でない音声が観測された場合,適切に処理できず.ユーザから見てちぐはぐな応答になることが多い.周囲やユーザがどのような状況であったかの考慮があまりなされていないことが問題である.そこで,音声自体をできるだけ利用して,周囲状況を推定し,システム全体でより適切な応答ができるような技術を検討する.具体的には,単一マイクロホンにおいて,音声から空間伝達特性を推定することで,発話者の口からマイクまでのおよその距離を推定する. 初年度に行った基本的な検証を元に,平成24年度は,実環境でのデータ収集を行いつつ,引き続きアルゴリズムの検証を行った.マイクロホンより0.2, 1, 2, 3, 4, 5 m離れた位置でのインパルス応答をそれぞれの位置で複数,収集した.それらのいくつかをテンプレートとし,残りを評価用音声データにたたみ込むことにより,シミュレーションで距離に依存した評価データを作成した.入力された音声から推定された空間伝達特性との比較を行って,最も近いテンプレートの位置を推定された距離とした.音声から空間伝達特性を推定するために,あらかじめ,音声データベースから構築されたVQコードブックのセントロイドを用いた.入力音声の周波数特性に最も近い,セントロイドを選択し,その差分が空間伝達特性とした.さらなる精度のために,その空間伝達特性を推定する手続きを繰り返す手法を提案した.どの距離に対しても数%程度の向上が見られた.全体では7割程度の精度であった.また,音声対話システムで用いることを考慮すれば,厳密な距離は必要ない.そこで,距離を1 mまでと,1 mより遠く,に分けて再評価を行った.すると,精度は8割程度得られることが分かった.
|