2015 Fiscal Year Research-status Report
音声対話システムを対象とした雑音に頑健な話者までの距離推定の研究
Project/Area Number |
26330211
|
Research Institution | Aichi University of Technology |
Principal Investigator |
實廣 貴敏 愛知工科大学, 工学部, 准教授 (60394996)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | 音声認識 / 音声対話システム / 音源距離推定 / 音響モデル |
Outline of Annual Research Achievements |
本研究では,音情報を元に周囲状況を正確に把握する技術の確立を目標としている.現状の音声対話システムでは,入力音声が音声認識対象としている.しかし,実環境では,周囲で他の人が騒いでいる場合など,音声であっても認識対象でない場合もある.そこで,発話者までの距離を一つの情報として認識対象であるか判断する.近ければ,認識対象である可能性が高いと言える.特に,対話システムでは,単一マイクロホンが利用されるため,当面,1チャンネル入力による音声を研究対象としている.2014年度に収録,整備したデータベースを用い,主に,特徴量に関する評価を行った.それまでは短時間フーリエスペクトルを用いていたが,音声認識など多くの音声情報処理ではMFCCという,聴覚特性を考慮したフィルタバンク出力をケプストラムに変換したものをよく用いている.そこで,今回は,MFCCを特徴量とし,発話からの距離推定を試みた.雑音のないクリーンな音声モデルを用いるが,そのモデルとして,VQ (Vector Quantization) コードブックを用いた.これにより音声に含まれる代表的な特徴量ベクトルを抽出しておくことができる.距離推定の際には,入力音声の特徴量とよく似た代表的な特徴量ベクトルを選択し,さらに,入力音声との差分を計算する.その差分が音声の歪み成分である.この歪み成分を,あらかじめ用意しておいた距離別のテンプレートとの比較を行い,最も近いものを選択することで,距離推定できる.今回の実験では,距離推定精度に距離によって,大きな偏りがあり,うまくいくものと,全く推定できないものとに分かれた.特徴量として,音声認識によく使われる12次元MFCCを用いたが,おそらく,歪み成分を求めるには次元数が少なかったことが問題と思われる.引き続き,特徴量次元数を大きくするなど,より詳細な検討を行う予定である.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2014年度に作成したデータベースを利用し,また,音声特徴量をMFCCにして検討を開始した.短時間スペクトルに比べ,次元数が少ないため,コードブック作成の時間は減ったが,パソコンのメモリ容量の問題もあり,あまり多くの学習データを利用できないことがわかった.実験を行いやすくはなったが,距離推定精度が全般的によくなく,実現が難しいという結論になった.まだ,詳細が検討できていないが,おそらく,音声特徴量の次元数が低すぎ,距離推定の手がかりになる特徴をうまく抽出できていないと考えられる.音声特徴量の次元数を増やすなどの検討が必要と考えている.
|
Strategy for Future Research Activity |
2016年度は,担当学生は代わるが,検討内容を継続できそうなので,引き続き,基本アルゴリズムの検証を行いたい.2014年度で作成した評価データを実際に用い,距離推定の精度を評価する.検討する項目としては,問題になっている(1) 音声特徴量の次元数,(2) 状況に応じて,他の特徴量を検討,などが挙げられる.余裕があれば,実環境下での検討を目標としているので,評価に必要な音声対話システムを用いる時に観測されるような周囲雑音の収録も行っていきたいと考えている.また,これら基本アルゴリズムの検証と並行して,その後に利用する予定の雑音抑圧手法の検討も行っていく予定である.スペクトルサブトラクションを適用した上での評価も検討していきたい.
|
Research Products
(1 results)