研究課題/領域番号 |
23500230
|
研究機関 | 愛知工科大学 |
研究代表者 |
實廣 貴敏 愛知工科大学, 工学部, 准教授 (60394996)
|
研究期間 (年度) |
2011-04-28 – 2014-03-31
|
キーワード | 音声情報処理 / 音声認識 / 音声対話システム / 音源距離推定 |
研究概要 |
音声対話システムでは,基本的に入力される音声が音声認識対象であると仮定して作られているのが一般的である.認識対象でない音声が観測された場合,適切に処理できず.ユーザから見てちぐはぐな応答になることが多い.入力を検知し,音声認識したとき,そのとき周囲やユーザがどのような状況であったかの考慮があまりなされていないことが問題である.そこで,音声自体をできるだけ利用して,周囲状況を推定し,システム全体でより適切な応答ができるような技術を検討する.具体的には,単一マイクロホンにおいて,音声から空間伝達特性を推定することで,発話者の口からマイクまでのおよその距離を推定する. 平成23年度は,本研究課題の初年度として,研究を立ち上げる準備を行った.対話システムから離れた位置でユーザが話す状況を考え,様々な距離から声を発したときの特性を表すインパルス応答が必要である.そこで,一般的な手法であるTSP信号によるインパルス応答の推定を行うことにした.まず,音声収録を可能にするために,収録機器や測定機器を購入した.これらを用い,まずは研究室内の狭い空間での測定を行った.まだ音声からの空間伝達特性の推定をなんらかの形で実現できていないため,TSP信号を入力として,得られた信号からインパルス応答を求めたものを利用して評価を行った.手法としては,最も簡単であるが,テンプレート・マッチングによるもので検討した.特徴量として周波数特性を用いた.例えば,0.5m~3mの間を0.5m間隔でのインパルス応答の特徴量テンプレートを用意し,入力特徴量との比較で最も近いテンプレートを認識結果とした.テンプレートの数によるが,7割程度の結果が得られた.現段階では十分とは言えないが,今後,より詳細な検討をしていく予定である.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
平成23年度は,本研究課題の初年度であるため,基本的に立ち上げのための検討となった.大学院博士前期課程1年生の研究課題として,この課題を設定した.彼は中国人留学生であり,それまで音声情報処理を学んだことがなかったため,彼自身に必要な勉強から始めた.一通りの結果を得るまでに長い期間が必要であった.現在,最も簡単化した状況での実験を行っており,インパルス応答自体での評価を終えたところである.思っていたより,インパルス応答の周波数特性における距離依存が少ないようであり,いくつかの特徴量を試しながら,適切な方法を検討している.また,現在はTSP信号を発信し,インパルス応答を求めているが,音声対話システムで用いるためには,TSP信号ではなく,音声を入力としなければならない.音声から空間伝達特性を推定する予定であり,いくつか手法を調べている段階である.担当学生の知識・技術のレベルにより,実装上の問題もあるため,なかなか難しい手法を応用することが困難であることが分かった.比較的実装しやすい方法で,効果的な手法を探していきたいと思っている.
|
今後の研究の推進方策 |
本研究の目標である音声対話システムでの利用のために,より現実的な空間での実験を行う.音声対話システムを設置する予定の大学ロビーにおいて,実験を行えるだけのインパルス応答を測定する.これで得られたデータベースを元に,まずはこれまで通りのインパルス応答周波数特性を用いた距離推定を行う.この評価を行った後,音声入力からの推定を試みる.音声データはインパルス応答を畳み込むことで近似的ではあるが作成する.音声からの推定には,クリーンな音声データベースを用い,音声モデルを作成しておき,そのモデルと観測された音声との周波数特性の対数での差分を用いる.モデルとしては,GMMやより簡単にはVQヒストグラムを用いることを考えている.
|
次年度の研究費の使用計画 |
インパルス応答を求めたり,距離推定実験などの処理を行なったりするための数値計算ソフトウェアMATLABを数ライセンス購入する.また,学生用に端末として,デスクトップ・パソコンを数台購入する.その他に,音声データベースを保存したり,専用に長時間演算を行ったりするためのコンピュータ・サーバーを1台程度購入する.その他には,学会発表や聴講のための旅費に当てる予定である.
|