N-gram統計手法を応用した日本語表現パターンの自動抽出として、今年度は、(1)複数の名詞から構成される表現(名詞句)、(2)複数の同士から構成される表現(重文/複文)の2種類の表現に目標を合わせた表現抽出を行うため、縮退させる単語の種類を適切に選択する方法を考えた。 具体的には、(1)では、連鎖型共起表現抽出法を使うこととし、原文に対して、単純置き換えと再起的置き換えの2種類の置き換え方法を考えた。単純置き換えは、名詞、接頭接尾辞、連体詞、形容詞、形容動詞をそれぞれ特定の記号に置き換えるもので、再起的置き換えは、単純置き換えを行った結果が記号の連鎖となったとき、それを一つの記号に縮退させるものである。実験結果によれば、名詞句の構造をより鮮明にクローズアップさせるには、再起置き換えが適していることが分かった。 (2)では、ごみの抽出を抑制する観点と重文・複文の文型を判断する観点から見ると、連鎖型共起表現抽出法では、動詞、助動詞、接続助詞、形式名詞、副詞、句読点など以外を記号に置き換える方法、離散型共起表現抽出法でも、ほぼ同種の置き換えが、適切だとわかった。 また、大規模コーパスから、係り受け構造に着目して構造的類似文を発見する方法として、以下の3ステップからなるアルゴリズムを開発した。 (1)DB文の中から、入力文とタイプの一致し、出現順序が一致する文節を最も多く含む文を抽出する。 (2)抽出されたDB文の文節のうち、係り受けペアを構成しない文節を削除する。 (3)残されたDB文の中で、入力文と対応する係り受けペア数が最大となる組を発見する。
|