本研究は、音声対話システムにおける音声認識精度の高精度化と非言語音声情報の積極的な利用を目的として、音声発話中から非言語音を検出する方法について検討したものである。 本年度は、昨年度にひきつづき、非言語音を擬似音素系列として近似的に表現するモデルを検討した。基本的なアイデアは、人間が非言語音を擬音語として表現しているのと同様の処理を計算機に行わせようというものである。具体的には、非言語音を音素認識することにより得られる音素系列群に対してクラスタリング処理を行うことで代表的な擬似音素系列を選択し、これを発話辞書に登録することで、既存の音声認識の枠組みの中で音声発話中の非言語音を認識する。 まず始めに非言語音の中でも咳および咳払いを対象として音素認識を行った。その結果、咳および咳払いの波形が母音/u/、促音/q/、無声破裂音/p/として認識されることが確認できた。さらに認識結果の音素系列をクラスタリングし、その中心パターンで咳および咳払いをモデル化した。これらの擬似音素モデルを用いた認識実験を行った結果、前年度に検討した咳HMMによるモデルと比較して、単語正解率、咳正解率の総合で約20%の改善率を得ることができた。以上の研究成果を国際会議および国内の研究発表会等で発表した。 また非言語音として咳・咳払い以外の音楽や環境音へと対象を拡大し、擬似音素モデルにより音声・非音声識別を行うことを試み、実験により有効性を確認した。一般的な非言語音への拡張に関しては、さらに多量のデータを収集し、引き続き次年度において検討を行う予定である。
|