2012 Fiscal Year Research-status Report
音声対話システムにおける音に着目した周囲状況推定技術の研究
Project/Area Number |
23500230
|
Research Institution | Aichi University of Technology |
Principal Investigator |
實廣 貴敏 愛知工科大学, 工学部, 准教授 (60394996)
|
Keywords | 音声認識 / 音声対話システム / 音源距離推定 |
Research Abstract |
音声対話システムでは,入力される音声が音声認識対象であるとして作られているのが一般的である.認識対象でない音声が観測された場合,適切に処理できず.ユーザから見てちぐはぐな応答になることが多い.周囲やユーザがどのような状況であったかの考慮があまりなされていないことが問題である.そこで,音声自体をできるだけ利用して,周囲状況を推定し,システム全体でより適切な応答ができるような技術を検討する.具体的には,単一マイクロホンにおいて,音声から空間伝達特性を推定することで,発話者の口からマイクまでのおよその距離を推定する. 初年度に行った基本的な検証を元に,平成24年度は,実環境でのデータ収集を行いつつ,引き続きアルゴリズムの検証を行った.マイクロホンより0.2, 1, 2, 3, 4, 5 m離れた位置でのインパルス応答をそれぞれの位置で複数,収集した.それらのいくつかをテンプレートとし,残りを評価用音声データにたたみ込むことにより,シミュレーションで距離に依存した評価データを作成した.入力された音声から推定された空間伝達特性との比較を行って,最も近いテンプレートの位置を推定された距離とした.音声から空間伝達特性を推定するために,あらかじめ,音声データベースから構築されたVQコードブックのセントロイドを用いた.入力音声の周波数特性に最も近い,セントロイドを選択し,その差分が空間伝達特性とした.さらなる精度のために,その空間伝達特性を推定する手続きを繰り返す手法を提案した.どの距離に対しても数%程度の向上が見られた.全体では7割程度の精度であった.また,音声対話システムで用いることを考慮すれば,厳密な距離は必要ない.そこで,距離を1 mまでと,1 mより遠く,に分けて再評価を行った.すると,精度は8割程度得られることが分かった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成24年度は,さらに実際的な検討を進めることができた.本課題を担当した学生も大学院博士前期課程2年生になり,自分の勉強も進んで,積極的に検討内容を進めることができた.前年度に行った基本的な評価に引き続き,コードブックのサイズをいくつか変えて精度を評価した.さらに,新たな提案として,繰り返し推定方法を導入し,効果があることを確認した.また,評価基準も音声対話システム用として割り切ったものを用いることで,精度としては,おそらく,実際に利用できる程度のものになることが分かった.この課題で提案している基本的な検討は,最低限できたと考えている.ただし,実環境でのデータを用いた評価ではあるが,雑音が少ないなど,非現実的な点も残っている.雑音対策も考慮した検討は今後行っていく予定である.
|
Strategy for Future Research Activity |
平成24年度に作成し,使用したインパルス応答は,実際の環境で収録されたものであったが,比較的周囲雑音が少ない状況下で得られたものである.また,評価データはクリーンな音声データにインパルス応答をたたみ込んで得られた模擬データである.より現実的な評価のためには,周りに人がいるなど,周囲雑音が無視できない場合のデータが必要である.ただし,実際の環境で大量の音声データを収録するには,時間がかかるため,条件が変化してしまい,評価がしにくい.そこで,評価データ自体はそのような模擬データを用いるが,雑音データは実際の環境で収録されたものを用い,加算することで,雑音が付加された評価データを作成する.その評価データを用いて,なんらかの雑音抑圧手法を導入し,これまでの話者までの距離推定における提案手法を検討する.
|
Expenditure Plans for the Next FY Research Funding |
検討に必要な周囲雑音収集およびそのデータベース化の作業を学生のアルバイトとして行う予定である.また,端末として必要なパソコンを数台購入する.その他に,音声データベースを保存したり,専用に長時間演算を行ったりするためのコンピュータ・サーバーを購入する.その他には,学会発表や聴講のための旅費に当てる予定である.
|
Research Products
(2 results)