本研究は「ゆっくり喋ることで認識精度が向上するような音声認識システム」を開発することを目的とする。通常、人間は速い音声よりもゆっくりした音声の方が認識しやすく、話し相手により明確に音声を伝えたい場合にはゆっくり喋る傾向がある。そのため、ゆっくりと発声することで認識精度が向上する音声認識システムは、人間にとって自然なユーザ・インタフェースであると言える。現在の音声認識システムで音響モデルとして広く使われているHMM(隠れマルコフモデル)は優れた音声認識フレームワークであるものの、HMMを用いた音響モデルではゆっくり発話することで認識精度が低下してしまうので、HMMを改良する必要がある。 最初に、従来から行ってきた発話速度変動に対応した音響モデルに、発話速度が違うことによって音響的な特性が変わることを考慮した発音変動モデルを組み込むことを考えた。まず、発音変動が起きるコンテキスト情報を、長いセグメントを用いた統計量によって特徴パラメータに直接取り込むことを考えた。しかし、この方法はセグメントが長くなると次元圧縮の特性が悪くなり、特徴パラメータの次元数が多くなることでパラメータの推定精度の低下を招き、認識率の向上は得られなかった。次に、発話の転記テキストと実際の発話表記が異なる部分を場合分けしたモデルを作成し、これによって認識精度の向上を試みた。この方法と以前に開発した分析周期変更モデルとの併用により、わずかながら認識精度の向上を得た。しかし、この方法は発話速度が速い場合に対してより有効であるという結果となった。 同時に、ゆっくり喋ることで上昇するような信頼度尺度の検討を行った。Studentのt分布の分布間距離をベースとして検討を行い、いくつかのアイデアは得たものの、明確な結論はまだ得られていない。この策定、実装が来年度以降の課題となる。
|