1.データの整備:研究の遂行に不可欠である大規模な言語コーパス(新聞記事データベース)を購入するとともに、研究遂行のためのテキストコーパス処理用各種ツールプログラムを作成した。 2.モデルの構造:一般化ベルヌ-イ試行モデルに基づく言語モデルを考案し、このモデルが(1)「従来の単語N-gramモデルにおいては文長が正しく考慮されていない」という欠点を補いうるものであること、(2)従来経験的に用いられてきた単語挿入ペナルティスコア付けと等価な働きを持つこと、の2点を理論的に明らかにした。 3.単語を単位とする言語モデル:一般化ベルヌ-イ試行モデルにもとづく言語モデルを、単語バイグラム、単語トライグラムをベースに作成した。 4.認識実験によるモデル評価:連続音声認識実験により、提案したモデルの特性を詳細に調査した。その結果、(1)提案モデルを用いることで認識性能を大きく改善することが可能であること。(2)提案モデルは、通常経験的に決定されている音響確率に対する言語確率の重み係数(言語重み)、の値に過敏でなく、音響確率のレンジの変動に対して頑健なモデルであること、の2点を実験的に確認した。これらの結果は、2項において理論的に得られた結果と一致するものである。 5.単語クラスタリング実験:さらに、モデルの精度を向上させるとともに、本研究の目的の一部である、計量的言語空間の構成を行うため、相互情報量により定義された単語間距離にもとづく単語クラスタリングの実験を開始した。
|