2016 Fiscal Year Research-status Report
音声対話システムを対象とした雑音に頑健な話者までの距離推定の研究
Project/Area Number |
26330211
|
Research Institution | Aichi University of Technology |
Principal Investigator |
實廣 貴敏 愛知工科大学, 工学部, 准教授(移行) (60394996)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | 音声認識 / 音声対話システム / 音源距離推定 / 発話者距離推定 / Deep Neural Network / Deep Belief Network |
Outline of Annual Research Achievements |
本研究では,音情報を元に周囲状況を正確に把握する技術の確立を目標としている.現状の音声対話システムでは,入力音声が音声認識対象としている.しかし,実環境では,周囲で他の人が騒いでいる場合など,音声であっても認識対象でない場合もある.そこで,発話者までの距離を一つの情報として認識対象であるか判断する.近ければ,認識対象である可能性が高いと言える.特に,対話システムでは,単一マイクロホンが利用されるため,当面,1チャンネル入力による音声を研究対象とする.2014年度に収録,整備したデータベースを用い,2015年度に特徴量種別に関する評価を行った.MFCCを特徴量とし,発話からの距離推定を試みた.雑音のないクリーンな音声モデルとして,VQ (Vector Quantization) コードブックを用いた.距離推定の際には,入力音声の特徴量とよく似た代表的な特徴量ベクトルを選択し,さらに,入力音声との差分を計算する.その差分が音声の歪み成分である.この歪み成分を,あらかじめ用意しておいた距離別のテンプレートとの比較を行い,最も近いものを選択することで,距離推定できる.2015年度では,音声認識によく使われる12次元MFCCを用いたが,よい性能を得ることができなかった.おそらく,次元数が少なかったことが問題と思われる.2016年度では,次元数を40次元として検討を行った.推定精度が改善できた距離もあったが,全体としては低い性能であった.そこで,手法の改善として,現在,パターン認識でよい精度を示すDeep Neural Networkの一つである,DBN (Deep Belief Network)を用いることにした.距離別の音声特徴量を入力として教師あり学習を行った.VQに比べると精度向上したが,第1位候補では2割程度の精度でまだまだ改善が必要である.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2015年度では,VQ (Vector Quantization) コードブックを用いた手法において,音声特徴量MFCCを用いたが,よい成果は得られなかった.そこで,2016年度では,学習データの量を増やしたり,特徴量次元数を12次元から40次元に増やしたりして検討を行った.残念ながら,大きな改善は見られなかった. 近年,Deep Neural Network (DNN)がパターン認識において精度の大きな改善が得られることがわかっている.そこで,DNNの一つの手法であるDeep Belief Network (DBN)を用い,距離推定における精度を検討した.距離別の音声特徴量を入力として教師あり学習を行った.VQに比べると精度向上したが,第1位候補では2割程度の精度でまだまだ改善が必要である.もともと対象とした部屋がそれほど大きな部屋ではなく,距離が大きくなっても音響的な変動は少ないと考えられる.
|
Strategy for Future Research Activity |
2017年度は,最終年度でもあるので,なんらかの結論を得られるようにしたい.卒業研究で検討を継続する学生がいるので,引き継ぎ,DNN系でのアルゴリズムを用いて検討を行いたい.また,使用しているデータベースは特定の教室で収録されたものだが,効果の違いを見るためにも,他の教室や環境で収録し,同様な検討を行う. また,どこまでできるかは現段階では不明だが,Kinectを音声対話システムに利用することを考えており,それをこのテーマにも応用することを考えている.Kinectの震度センサーを利用することで得られる人物までの距離を利用して,その画像と観測される音声から,距離と音声特徴量との関係をDNNなどを用いてモデル化する.教師なしで学習できる可能性がある.雑音がある場合にもロバストな推定になると思われる.
|
Causes of Carryover |
研究が思ったほど進まなかったので,旅費などに使うことが少なかった.また,必要な機器を購入したかったが,年末から年度末にかけて,該当する機器の納期を確定することが難しかったため,次年度の適切な時期に購入することにした.
|
Expenditure Plan for Carryover Budget |
前半,8月ぐらいまでを目処にコンピュータなど,必要な機器を揃える.年末や年度末の研究会,学会への参加にも利用する.
|
Research Products
(1 results)