研究概要 |
1. 文字n-gramモデルと動的計画法の一種であるビタビ・アルゴリズムに基づく日本語形態素解析手法(単語分割法)の研究開発を行った。さらに、単語分割の精度向上のために、文字n-gramモデルに代わり、テキスト圧縮アルゴリズムPPM^*を用いた言語モデルを適用した単語分割モデルについて研究を行った。PPM^*は、確率・統計的テキスト圧縮技法として最も性能の優れたPPM(Prediction by Partial Matching)の一種であり,無限長文脈を取り扱うことができる。PPM^*を用いることにより、次数に上限のない可変長n-gramモデルを実現することができた。 2. 日本語の文字をクラスタリングすることにより得られた文字クラスモデルに基づく単語分割手法に関する研究を行った。文字クラスの導出アルゴリズムとして、削除補間法とクロスエントロピー基準に基づく方法について検討した。文字クラスモデルは、文字モデルに比べ、推定すべきパラメータ数が少ないので、文字モデルよりも頑健なパラメータ推定を行うことが可能となった。 3. 文字n-gramモデル、PPM^*モデルおよび文字クラスモデルに基づく単語分割手法の性能評価実験として、ADD(ATR Dialogue Database)コーパスを用いた実験を行い、これらの手法の有効性を示した。
|