本研究の目標は、範疇文法を用いて多項式時間言語学習アルゴリズムを定式化し、実験をおこなってその検証を行なうことである。本年度は、以前に作成済みの学習アルゴリズムをさらに改良し、テキストコーパス(新聞)を用いて、語のより良好な統語的/意味分類が得られるようになった。より具体的には、アニーリング手法の導入による統計的クラスタリング手法の改良と、分類を行なう際のキーとなる単語の選択で、多数決原理を導入したことである。この単語分類の結果は、最終的な目標である範疇文法に型として組み込まれることになる。クロスバリデーションを行なった結果、これらによって、収束の度合が10%程度向上していることを確認した。また、従来得ていた極限における同定の証明を発展させ、新しいアルゴリズムに関しても証明をおこなった。 さらに複数の被験者に単語分類を行なってもらい、それと我々のアルゴリズムの出力の比較を行なった。概して、従来提案されてきた語の統計的クラスタリング手法で、同じ数のクラスを作成した場合よりも再現率、適合率ともに若干高い値となっている。従来のクラスタリング手法では取り扱うことができなかった曖昧性の取り扱いができるようになったことで、再現率が向上したものと考えられる。実際に出力結果を見たところ、場所と組織の両方に属する単語が多いなど、直観に合う結果が得られている。また、分類を行なう基準となる単語についても、直感的に妥当なものが得羅得ている。
|