音素セグメンテーションユニットを用いる様々なタイプの単語音声認識システムによる認識実験を通して大語彙化に対する問題点を明らかにし、その解決を試みた。 (1)特定話者で単語数が1845語、4915語の場合の上位3位正解率は、従来のシステムでは、それぞれ96.5%、94.5%、であり、2万語のときには約90%になった。これらの正解率を向上させるためにセグメンテーション方式の改良とパターンマチング方式の改良を行った。 (2)セグメンテーションにおける挿入エラーが殆ど起こらないセグメンテーションシステムと脱落エラーが殆ど起こらないシステムを並列に接続する形のマルチセグメンテーション方式のシステムによって単語認識率の向上を図った結果、1845語、4915語の場合、上位1位正解率は、従来のものに比べて、それぞれ、1ないし2%の改善がみられたが、上位3位の正解率では0.5ないし1.0%の改善しか得られなかた。現在、別の方法による改善を考えている。 (3)各話者ごとに作成した音素レファレンスパターンのセットを基本セットとして、これを複数話者分用意し、声質や発声様式の似た話者の基本セットを混合したレファレンスを用いたシステムを構成することによって、1ないし2%の改善がみられた。また、声質や発声様式の基本セットを複数用いて、並列に音素ラベリングと単語マッチングを行う形の並列音素ラベリング方式によるシステムと構成することによって、従来のシステムに対し、1ないし2%の改善がみられた、さらに、混合形と並列形とを組み合わせることによって2〜3%の改善があった。
|