研究概要 |
1. 派生名詞・複合名詞の文法を構築 仮名漢字変換・形態素解析の高精度化のために,シソーラスと用例による手法に基づいて派生名詞・複合名詞を解析する手法を提案し,その文法を確率文脈自由文法(PCFG)で構築した.また,RWCテキストデータベースより派生名詞と複合名詞の用例を抽出し,EDR概念体系を組み込んだ大規模な文法を試作した. 2. 学習用例数の増加による認識率変動の調査 シソーラスと用例に基づく本手法において学習用例が少ない時には,一般に再現率が低く,かといってルールを一般化すると適合率が下がり,再現率と適合率のいずれか一方が従来手法(品詞や粗い意味分類レベルで連接可能性を判定するもの)より劣る場合がある.そこでどの程度用例を学習すれば従来手法を越えられるかを調査した.比較実験の内容は,新聞記事に対する1文単位の形態素解析において生じる全ての派生語候補に対する仮名漢字変換であり,様々な学習条件下で適合率と再現率の計測を行った.その結果,我々の手法が従来手法よりも優れた適合率・再現率を示すための条件は,一般化段数(ルールの抽象化)を1段程度に押さえ,少なくとも10万語以上の用例を学習することだと判明した.こうすれば,登録語と意味的にもっともらしい未登録語のみをうまく受理できるのである.また,充分に多くの用例(100万語以上)を学習した後では,むやみにルールを一般化するよりも,1段だけ一般化したルールを用いた場合に,適合率と再現率の両方で最も良い値が得られた.一方,複合名詞に関しては未だ単純な従来手法を越えるまでに至っていない.これは複合名詞の用例の量が十分でないためであると考えられる.今後は,さらなる用例の収集を計り,解析の高速化手法の研究が必要である.
|