2006 Fiscal Year Annual Research Report
音声対話システムにおける非言語音声情報の検出と音声認識の高精度化
Project/Area Number |
16700195
|
Research Institution | Fukuoka University |
Principal Investigator |
高橋 伸弥 福岡大学, 工学部, 助手 (40330899)
|
Keywords | 咳検出 / 非言語音 / 咳払い認識 / 音声認識 / 言語モデル / 擬音語モデル |
Research Abstract |
本研究は、音声対話システムにおける音声認識精度の高精度化と非言語音声情報の積極的な利用を目的として、音声発話中から非言語音を検出する方法について検討したものである。 本年度は、昨年度までに検討した咳検出機構を実際の対話システムへと応用するための対話ロボットのプロトタイプ作成を行った。このプロトタイプでは2つのマイクから入力された音の時間差から、到来方向を推定し、さらに画像処理による話者の顔検出を併用することで話者方向の推定をし、その方向に指向性マイクを向けることで音声認識精度の高精度化をはかるというものである。この際、雑音や物音などの音と咳やくしゃみなどの音を識別することができれば、自然な対話システムが実現できる。 また、非言語音を擬似音素系列として近似的に表現するモデルを構築する際に、クラスタリングの精度がモデルの性能を大きく左右することから、クラスタリング手法の1つであるスペクトラルクラスタリングについての検討を行った。スペクトラルクラスタリングは、対象データの類似度行列に対するラプラス行列を固有値分解して得られた固有ベクトルに基づき、データを分類する方法である。この方法を用いて、擬音語表現や記号等が含まれたWeb文書の分類実験を行い、従来手法の1つである最大距離クラスタリングと比較して、精度よくクラスタリングできることを確認した。さらに本手法を昨年度までに収集した擬似音素系列に対して適用し、咳モデルの構築を行つた。
|