2011 年度実績報告書

系列アラインメントに基づく並列構造解析と統語解析の統合に関する研究

研究課題

研究課題/領域番号	21700170
研究機関	国立遺伝学研究所
研究代表者	原一夫国立遺伝学研究所, 生命情報・DDBJ研究センター, 研究員 (30467691)
キーワード	自然言語処理 / 構文解析 / 機械学習 / 並列句解析 / アラインメント
研究概要	自由文に対する構文解析のなかでも,"and"や"or"などの等位接続詞により結ばれる句や文を同定することを目的とする並列構造解析は,自然言語処理の基礎技術の一つであるにもかかわらず,既存解析器の精度は高くない(英語の並列構造範囲同定の精度は約50%である).本研究課題は並列構造解析の精度の向上を第一の目的とし,系列アラインメントに基づく手法を開発した.その結果,昨年度までに,ベンチマークとなるテキストデータに対する並列構造解析では,一定の成果をあげた. 本年度は,本研究課題の第二の目的である,並列構造解析と統語解析(構文解析,固有表現抽出等)の融合に関する調査研究を行うと同時に,ベンチマークデータではない一般のテキストデータに対する開発手法の適用を行った.具体的な成果として,人手作業による専門用語抽出が困難となる膨大な数(1,000,000件)の生命医学文書に対して,生物種名,病名,遺伝子・蛋白質名,化合物名を自動アノテーションするプロジェクト(欧州バイオインフォマティクス研究所(EMBL)が主催するCALBCプロジェクト,http://www.calbc.eu/)において,本研究課題により開発されたシステムは,参加16機関中で,病名,化合物名,生物種名について1位,遺伝子・蛋白質名について3位の精度を達成した.これは,本研究課題による開発手法の一般のテキストデータに対する有効性を示すものである.

研究成果
(1件)

すべて雑誌論文 (1件) (うち査読あり 1件)

[雑誌論文] Assessment of NER solutions against the first and second CALBC Silver Standard Corpus2011
- 著者名/発表者名
  Dietrich Rebholz-Schuhmann, Nigel Collier, Udo Hahn, Kazuo Haraら37名(Kazuo Haraは21番目)
- 雑誌名
  
  Journal of Biomedical Semantics
  
  巻: 2(Suppl5) ページ: S11
- DOI
  doi:10.1186/2041-1480-2-S5-S11
- 査読あり