1998 Fiscal Year Annual Research Report
文字クラスに基づいた言語モデルとその汎用日本語形態素解析に関する研究
Project/Area Number |
10680383
|
Research Institution | The University of Tokushima |
Principal Investigator |
北 研二 徳島大学, 工学部, 助教授 (10243734)
|
Keywords | 自然言語処理 / 日本語処理 / 形態素解析 / 単語分割 / 確率的言語モデル / PPMモデル / 文字クラス / クラスタリング |
Research Abstract |
1. 文字n-gramモデルと動的計画法の一種であるビタビ・アルゴリズムに基づく日本語形態素解析手法(単語分割法)の研究開発を行った。さらに、単語分割の精度向上のために、文字n-gramモデルに代わり、テキスト圧縮アルゴリズムPPM^*を用いた言語モデルを適用した単語分割モデルについて研究を行った。PPM^*は、確率・統計的テキスト圧縮技法として最も性能の優れたPPM(Prediction by Partial Matching)の一種であり,無限長文脈を取り扱うことができる。PPM^*を用いることにより、次数に上限のない可変長n-gramモデルを実現することができた。 2. 日本語の文字をクラスタリングすることにより得られた文字クラスモデルに基づく単語分割手法に関する研究を行った。文字クラスの導出アルゴリズムとして、削除補間法とクロスエントロピー基準に基づく方法について検討した。文字クラスモデルは、文字モデルに比べ、推定すべきパラメータ数が少ないので、文字モデルよりも頑健なパラメータ推定を行うことが可能となった。 3. 文字n-gramモデル、PPM^*モデルおよび文字クラスモデルに基づく単語分割手法の性能評価実験として、ADD(ATR Dialogue Database)コーパスを用いた実験を行い、これらの手法の有効性を示した。
|
-
[Publications] Kenji Kita et al.: "Rule-based hierarclnical document categorization for the World Wide Web" Proceedings of APWEB'98. (1998)
-
[Publications] Minaru Sasaki and Kenji Kita: "Automatic text categorization based on hierarchical rules" PRoceedings of IIZUKA'98. (1998)
-
[Publications] Minaru Sasaki and Kenji Kita: "Rule-based text categorization using hicrarchical categories" Proceedings of IEEE SMC'98. (1998)
-
[Publications] 小田裕樹、北研二: "PPMモデルによる日本語単語分割" 自然言語処理研究会. 128. 2827-2830 (1998)
-
[Publications] 北研二、山口直宏: "World Wide Webからの対訳データの自動収集" 自然言語処理研究会. 128. 127-134 (1998)
-
[Publications] 小田裕樹、北研二: "文字クラスモデルに基づく日本語田んぼ分割" 自然言語処理研究会. (発売予定). (1999)