• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2015 年度 実施状況報告書

音声対話システムを対象とした雑音に頑健な話者までの距離推定の研究

研究課題

研究課題/領域番号 26330211
研究機関愛知工科大学

研究代表者

實廣 貴敏  愛知工科大学, 工学部, 准教授 (60394996)

研究期間 (年度) 2014-04-01 – 2018-03-31
キーワード音声認識 / 音声対話システム / 音源距離推定 / 音響モデル
研究実績の概要

本研究では,音情報を元に周囲状況を正確に把握する技術の確立を目標としている.現状の音声対話システムでは,入力音声が音声認識対象としている.しかし,実環境では,周囲で他の人が騒いでいる場合など,音声であっても認識対象でない場合もある.そこで,発話者までの距離を一つの情報として認識対象であるか判断する.近ければ,認識対象である可能性が高いと言える.特に,対話システムでは,単一マイクロホンが利用されるため,当面,1チャンネル入力による音声を研究対象としている.2014年度に収録,整備したデータベースを用い,主に,特徴量に関する評価を行った.それまでは短時間フーリエスペクトルを用いていたが,音声認識など多くの音声情報処理ではMFCCという,聴覚特性を考慮したフィルタバンク出力をケプストラムに変換したものをよく用いている.そこで,今回は,MFCCを特徴量とし,発話からの距離推定を試みた.雑音のないクリーンな音声モデルを用いるが,そのモデルとして,VQ (Vector Quantization) コードブックを用いた.これにより音声に含まれる代表的な特徴量ベクトルを抽出しておくことができる.距離推定の際には,入力音声の特徴量とよく似た代表的な特徴量ベクトルを選択し,さらに,入力音声との差分を計算する.その差分が音声の歪み成分である.この歪み成分を,あらかじめ用意しておいた距離別のテンプレートとの比較を行い,最も近いものを選択することで,距離推定できる.今回の実験では,距離推定精度に距離によって,大きな偏りがあり,うまくいくものと,全く推定できないものとに分かれた.特徴量として,音声認識によく使われる12次元MFCCを用いたが,おそらく,歪み成分を求めるには次元数が少なかったことが問題と思われる.引き続き,特徴量次元数を大きくするなど,より詳細な検討を行う予定である.

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

2014年度に作成したデータベースを利用し,また,音声特徴量をMFCCにして検討を開始した.短時間スペクトルに比べ,次元数が少ないため,コードブック作成の時間は減ったが,パソコンのメモリ容量の問題もあり,あまり多くの学習データを利用できないことがわかった.実験を行いやすくはなったが,距離推定精度が全般的によくなく,実現が難しいという結論になった.まだ,詳細が検討できていないが,おそらく,音声特徴量の次元数が低すぎ,距離推定の手がかりになる特徴をうまく抽出できていないと考えられる.音声特徴量の次元数を増やすなどの検討が必要と考えている.

今後の研究の推進方策

2016年度は,担当学生は代わるが,検討内容を継続できそうなので,引き続き,基本アルゴリズムの検証を行いたい.2014年度で作成した評価データを実際に用い,距離推定の精度を評価する.検討する項目としては,問題になっている(1) 音声特徴量の次元数,(2) 状況に応じて,他の特徴量を検討,などが挙げられる.余裕があれば,実環境下での検討を目標としているので,評価に必要な音声対話システムを用いる時に観測されるような周囲雑音の収録も行っていきたいと考えている.また,これら基本アルゴリズムの検証と並行して,その後に利用する予定の雑音抑圧手法の検討も行っていく予定である.スペクトルサブトラクションを適用した上での評価も検討していきたい.

  • 研究成果

    (1件)

すべて 2015

すべて 学会発表 (1件)

  • [学会発表] iBeaconを利用した音声対話システムの提案2015

    • 著者名/発表者名
      井上拓哉, 實廣貴敏
    • 学会等名
      日本音響学会2015年秋季研究発表会
    • 発表場所
      会津大学
    • 年月日
      2015-09-18 – 2015-09-18

URL: 

公開日: 2017-01-06  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi