研究概要 |
自由文に対する構文解析のなかでも,"and"や"or"などの等位接続詞により結ばれる句や文を同定することを目的とする並列構造解析は,自然言語処理の基礎技術の一つであるにもかかわらず,既存解析器の精度は高くない(英語の並列構造範囲同定の精度は約50%である).本研究課題は並列構造解析の精度の向上を第一の目的とし,系列アラインメントに基づく手法を開発した.その結果,昨年度までに,ベンチマークとなるテキストデータに対する並列構造解析では,一定の成果をあげた. 本年度は,本研究課題の第二の目的である,並列構造解析と統語解析(構文解析,固有表現抽出等)の融合に関する調査研究を行うと同時に,ベンチマークデータではない一般のテキストデータに対する開発手法の適用を行った.具体的な成果として,人手作業による専門用語抽出が困難となる膨大な数(1,000,000件)の生命医学文書に対して,生物種名,病名,遺伝子・蛋白質名,化合物名を自動アノテーションするプロジェクト(欧州バイオインフォマティクス研究所(EMBL)が主催するCALBCプロジェクト,http://www.calbc.eu/)において,本研究課題により開発されたシステムは,参加16機関中で,病名,化合物名,生物種名について1位,遺伝子・蛋白質名について3位の精度を達成した.これは,本研究課題による開発手法の一般のテキストデータに対する有効性を示すものである.
|