研究概要 |
特許文は、要約の中の「課題」、「解決手段」、「請求範囲」といった部分が、長文で解析しにくい(平均200文字)といわれている。また、特許特有の表現から、係り受けが複雑で、情報抽出や、機械翻訳のための正しい構文、意味解析の障害となることが指摘されてきた。 本課題においては、これらの問題を解決するために、シソーラスを用いた解析システムの構築を目指す。今年度は、まず特許文の係り受け解析誤りの分類に基づき、誤りを発見して自動修正する簡単なシステムを構築した。具体的には、特許特有表現である「本発明は〜である」という定型文と、「AとBとのCが」(A, B, Cは名詞)という形で表される並列構造文とを見つけて、係り受け誤りを自動修正するシステムを構築した。その結果、1200件余りの特許文の中から53の構造を発見し、それらについて、自動修正を行った結果、この種の誤りが修正できることを確認した。シソーラスは、既存のものを用いたが、まだ不十分なところがあるため、現在別のシソーラスを構築してその効果を確認する予定である。 また、初めから係り受けの誤りを避けるために、長文を自動的に分割する手段についても予備的な調査を行った。具体的には、長文を人手で解析して途中で区切り、それを市販の機械翻訳システムにかけて日英翻訳し、元の文の翻訳結果と比較してその効果を検証するものである。副詞句となる部分など、有効な分割候補がいくつか得られ、簡単なシステムで検証を行ったが、分割文をどのように結合するかという問題が残されている。次年度以降、この問題を解決する予定である。
|