本年度は、主に、ウェブから関連用語を収集する方法を中心に研究を行なった。` まず、2つの用語間の関係として、10種類(同義、類似・対比、上位概念、下位概念、全体、部分、並列、用途・環境、因果、複合語)の関係を設定した。次に、テキスト中からこれらの関係にある用語対を抽出するために、10種類の関係それぞれに対して、その関係を示唆する典型的な文型を調査・整理した。これらの文型と文とを照合して、上記の関係にある用語対を自動抽出することを実現するために、構文テンプレートと呼ぶ文型の記述法を定義し、これと構文解析した文とを比較する照合器(パターンマッチャー)を作成した。 関連用語を収集アルゴリズムとして、次のようなブートストラップ型のアルゴリズムを実装した。 (1)初期用語集合Gを与える。 (2)Gの中の用語が少なくとも1語存在するような文をウェブから収集する。 (3)上記の構文テンプレートを用いて、関連用語を抽出する。 (4)得られた新しい語の中から一般的な語を除去したものを用語集合Gに追加する。 (5)(2)以下を繰り返す。 上記の方法による関連用語収集を「生物学」の領域を対象に実験を行なった。10個の用語を初期用語集合とし、上記のループを2回実行した結果、128語の新しい用語が収集され、そのうち、97語(76%)が適切な関連用語であった。一旦、不適切な用語が用語集合に混入すると、その影響が次回のループで拡大して精度が下がるため、今後、この点を改善する必要がある。
|