本研究は、英文の構文解析手法を英文コーパスにおける語の検索に利用することによって、検索効率を向上させることをねらったものである。全文データベースに対する検索は、通常、検索語句の記号列、文字列としての一致によっている。もちろん、検索文字列の完全一致ばかりではなく、前方一致や後方一致、包含などという部分一致や、同義語辞書や類語辞書によるある種の連想機構的な検索機能など、高速な一致検索とともに、高度な技術も利用されている。しかし、このような文字列の一致のみを利用した検索システムでは支援機能としては一般に不十分である。文中の語句は他の語句から独立している訳ではなく、逆に密接に関連しているのであり、検索者の対象とする語句も、実は、検索者の意図としては明示してはいないが何らかの他の語句との関連を持ったものである。そして、検索者はその関連とともに対象の語句を検索しているのである。従って、文字列一致の検索によって得られたもののなかには意図した関係をもっていない、対象外の用例が存在する。検索者は多くの場合に、これらの大量の検索結果のなかから意図した結果を再び探すことになる。 語の文法機能を特定し、指定した文法機能と一致するかどうかをチェックするには、構文解析によって語の文法機能を推定する必要があるが、一般には、構文解析を完全におこなうことは困難である。しかし、検索効率の向上の目的には完全な構文解析である必要はなく、指定した文法機能が、検索語が構文上果している役割と一致する可能性が判定できるだけでも、検索効率の向上を計ることができる。 本研究はこのような目的で、検索システムで利用できる構文解析システムの作成と機能の検討を行なったものである。当初作成したシステムはLISPのKCLでコーディングしてあったが、Prolog型のオブジェクト指向言語であるCESPに移植し、それにともなって構文規則や品詞推定規則などのルールをプログラムから分離し、そのようなルールベースとして独立させた。また、部分的な構文解析の可能なシステムをするため、トップダウン的な構文解析をボトムアップ的に構文解析できるように構文解析ルールの構成を再検討した。 以上の研究成果は、第50回、および、第51回情報処理学会全国大会で報告した。 研究はまだ終了しておりず、完成に向けて努力中である。
|