今年度は、まず、重文・複文の構成要素となるキー表現を調べるため、外国人用の日本語教科書から、約500種類の連語表現を収集し、その意味的用法を分類すると共に、表現の意味的類型化をする際のキーワードとなる意味記述用語を抽出した。 また、N-gram統計プログラムを応用し、大規模な日本語コーパスから、重文・複文の文型パターンを効率よく収集するための方法として、目標毎に、縮退させる単語の種類を適切に選択する方法を考えた。しかし、縮対させすぎると文構造そのものが見えなくなってしまうおそれがある。そこで、重文・複文の文型の抽出に適した要素置き換え方法を探るため、連鎖型共起表現抽出の場合、離散共起表現抽出の場合それぞれについて、4種類、2種類の要素置き換え方法を考え、毎日新聞95年度の第1面の1万文をを対象に、抽出実験を行った。 その結果、ごみの抽出を抑制する観点と重文・複文の文型を判断する観点から見ると、連鎖型共起表現抽出法では、動詞、助動詞、接続助詞、形式名詞、副詞、句読点など以外を記号に置き換える方法、離散型共起表現抽出法でも、ほぼ同種の置き換えが、適切だと判断された。そこで、同新聞の1年分160万文を対象に、上記2種類の方法を適用し、文型抽出を行った。 これにより、多くの文型表現が抽出できる見込みとなったが、その後の人手による文型選択を効率化するには、今一歩、工夫が必要と見られる。今後は、実際に重文複文の文型を収集しながら、より細かな、置き換え制御法を検討していくことが期待される。
|