特許文は、要約の中の「課題」、「解決手段」、「請求範囲」といった部分が、長文で解析しにくい(平均200文字)といわれている。また、特許特有の表現から、係り受けが複雑で、情報抽出や機械翻訳のための正しい構文、意味解析の障害となることが指摘されてきた。本課題においては、これらの問題を解決するために、シソーラスを用いた解析システムの構築を目指す。今年度は、特許文の構文解析適応に関する研究を進めた。具体的には、構文解析器(パーザ)の中に、学習機能を有するものがあるが、それらを用いて、特許文を用いて学習を行い、特許文に特化したパーザを作成して実験を行った。その結果、ある程度特許文に対応したパーザの作成に成功した。学習していないパーザに比較して、学習後のパーザでは、誤った構文解析がやや少なくなる傾向が見られた。また、動詞を中心とした格フレーム(動詞にどのような名詞が共起するかを自動的に抽出したもので、数億語のデータベースから自動作成したもの)辞書と、特許文の英文への訳し分けとの関連について、手作業で対応が取れているかどうかを調べた。これは格フレームを動的シソーラスとして使用する場合の重要な手掛かりとなる。その結果、特許文によく使用されるサ変動詞については、ある程度訳し分けができていることが確認されたが、一般の和語動詞については、格フレームの不備もあって、余り成果が得られなかった。
|