1999 Fiscal Year Annual Research Report
文字クラスに基づいた言語モデルとその汎用日本語形態素解析への応用に関する研究
Project/Area Number |
10680383
|
Research Institution | The University of Tokushima |
Principal Investigator |
北 研二 徳島大学, 工学部, 助教授 (10243734)
|
Keywords | 自然言語処理 / 日本語処理 / 形態素解析 / 単語分割 / 確率的言語モデル / PPM^*モデル / 文字クラス / クラスタリング |
Research Abstract |
1.日本語の文字をクラスタリングすることにより得られた文字クラスに基づく確率的言語モデルを用いて、文字クラスの連鎖における単語境界の生起確率を利用する日本語単語分割モデルの研究を行った。文字クラスモデルは文字モデルよりも推定すべきパラメータ数が少ないという大きな利点があり、文字モデルよりも頑健な未知語モデルとして用いることができるという利点がある。また、統計的テキスト圧縮アルゴリズムPPM^*に基づき、文字クラスを予測単位とする可変長n-gramクラスモデルについても研究を行った。 2.ヒューリスティクスである字種切り法の考えを活用して、同一字種間で単語境界が生起する可能性の低いカタカナ、英字、数字に関しては字種全体を一つのクラスとみなすような単語分割モデルに関しても検討した。この結果、字種単位のグループ化の有効な字種の存在を示すことができた。 3.研究開発した日本語単語分割モデルの性能評価実験として、ADD(ATR Dialogue Database)コーパスを用いた実験を行った。この結果、文字クラスモデルを用いた提案手法の単語分割精度は文字モデルによる精度より高く、特に、文字クラスを予測単位とする可変長n-gramクラスモデルではオープンテストにおいて再現率96.38%,適合率96.23%の高精度を達成した。
|
-
[Publications] 小田裕樹,森 信介,北研二: "文字クラスモデルによる日本語単語分割"自然言語処理. 6・7. 93-108 (1999)
-
[Publications] K.Kita: "Automatic Clustering of Languages Based on Ptobabilistic Models"Journal of Quantitative Linguistics. 6・2. 167-171 (1999)
-
[Publications] H.Oda,K.Kita: "A Character-Based Japanese Word Segmenter Using PPM^*-Based Langauge Model"Proceedings of ICCPOL'99. 527-532 (1999)
-
[Publications] X-Y,Tai,Y.Kato,K.Kita: "Automatically Compiling Multilingual Translations from the World Wide Web"Proceedings of ISMT&CLIP. 516-521 (1998)
-
[Publications] Y.Tanaka,K.Kita: "JCKE Multilingual Corpus of Major Asian Languages"Proceedings of TKE'99. 660-670 (1999)
-
[Publications] 小田裕樹,北 研二: "PPM^*言語モデルを用いた日本語単語分割"情報処理学会論文誌(印刷中). (2000)
-
[Publications] 北 研二: "確率的言語モデル"東京大学出版会. 256 (1999)