研究課題/領域番号 |
10680383
|
研究種目 |
基盤研究(C)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
知能情報学
|
研究機関 | 徳島大学 |
研究代表者 |
北 研二 徳島大学, 工学部, 助教授 (10243734)
|
研究期間 (年度) |
1998 – 1999
|
研究課題ステータス |
完了 (1999年度)
|
配分額 *注記 |
2,400千円 (直接経費: 2,400千円)
1999年度: 800千円 (直接経費: 800千円)
1998年度: 1,600千円 (直接経費: 1,600千円)
|
キーワード | 自然言語処理 / 日本語処理 / 形態素解析 / 単語分割 / 確率的言語モデル / PPM^*モデル / 文字クラス / クラスタリング / PPMモデル |
研究概要 |
自然言語処理応用システムの研究開発において、形態素解析は最も基本的な技術である。日本語においては、文境界が明示的に示されていないため、特に単語の同定、すなわち文の単語分割が重要となる。本研究では、日本語文字を抽象化した文字クラスという新しい概念に基づく確率的言語モデルおよびこのモデルの形態素解析(特に単語分割)への応用に関する研究を行った。 本研究では、まず基本的な単語分割手法として、文字n-gramモデルに基づく単語分割法について研究した。さらに、単語分割の精度向上のために、文字n-gramモデルに代わり、データ圧縮アルゴリズムPPM^*を用いた言語モデルを適用した単語分割法の研究開発を行った。PPM^*は、確率・統計的テキスト圧縮技法として最も性能の優れたPPM(Prediction by Matching)の一種であり、無限長文脈を取り扱うことができる。 次に、日本語文字のクラス分類により得られた文字クラスモデルを用いる新しい単語分割手法について研究した。文字クラスモデルでは、推定すべきパラメータ数が文字モデルより少ないという大きな利点があり、文字モデルより頑健な推定を可能とする。したがって、文字クラスモデルを単語分割へ適用した場合、文字モデルよりもさらに頑健な未知語モデルとして機能することが期待できる。ADD(ATR Dialogue Database)コーパスを用いて評価実験を行った結果、文字クラスモデルを用いた提案手法の単語分割精度は文字モデルによる精度より高く、特に、文字クラスを予測単位とする可変長n-gramクラスモデルではオープンテストにおいて再現率96.38%、適合率96.23%の高精度を達成することができた。
|