特許文は、要約の中の「課題」、「解決手段」、「請求範囲」といった部分が、長文で解析しにくい(平均200文字)といわれている。また、特許特有の表現から、係り受けが複雑で、情報抽出や機械翻訳のための正しい構文、意味解析の障害となることが指摘されてきた。 本課題においては、これらの問題を解決するために、シソーラスを用いた解析システムの構築を目指す。今年度は、昨年度に引き続き、特許文の係り受け解析誤りの分類に基づき、誤りを発見して自動修正する簡単なシステムを改良、拡張した。まず最初に、並列接続詞によって作られる特許文の並列構造を解析し、法令文のような階層構造には従わないことを確認した。その結果に基づいて、並列接続詞に導かれる構造の係り受け誤りを自動修正するシステムを構築した。対象とした文にシステムを適用すると、ほぼ3分の2の文が修正できた。また、新たな文に対しては、約56%修正することができた。 また、長文を自動的に分割する手段についても引き続き調査を行った。具体的には、特許文特有の長い連体修飾句を把握するために、動詞が名詞にかかっている部分を抽出し、結合価と読点を手がかりに連体修飾句を抽出できるかどうかを調査した。その結果に基づき、非常に基本的な連体修飾句の範囲を同定することに成功した。結合価等についてさらに調査して、システムを改良する予定である。
|