• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

医学・生物学分野のテキスト処理のための知識体系の構築に関する研究

Research Project

Project/Area Number 00J60402
Research Category

Grant-in-Aid for JSPS Fellows

Allocation TypeSingle-year Grants
Section国内
Research Field Molecular biology
Research InstitutionThe University of Tokyo

Principal Investigator

大田 朋子  東京大学, 医科学研究所, 特別研究員(PD)

Project Period (FY) 2000 – 2002
Project Status Completed (Fiscal Year 2002)
Budget Amount *help
¥2,400,000 (Direct Cost: ¥2,400,000)
Fiscal Year 2002: ¥1,200,000 (Direct Cost: ¥1,200,000)
Fiscal Year 2001: ¥1,200,000 (Direct Cost: ¥1,200,000)
Keywords自然言語処理 / 情報抽出 / 知識獲得 / オントロジー / タグ付きコーパス
Research Abstract

高次の生物知識の抽出と体系化を行うためには、適切な意味タグが付与されたコーパスや最低限の専門用語を登録した辞書など言語リソースの整備が不可欠であるが、これまでに一般に公開された質の良いこれらのリソースは存在しない。そこで、本研究ではこういったリソースの整備を行い、ゲノム情報研究分野の共有資源として公開することを一つの目的としてきた。また、専門用語の自動認識や構文解析技術などの自然言語処理の基礎技術を用いると共に大規模コーパスからの学習を行うことで、これまでの自然言語処理研究の対象とされてきた新聞記事などの分野に比べて格段に難易度の高いゲノム・サイエンス分野のテキストに適用できるような、統合的なシステムの開発を行ってきた。
最終年度にあたる本年度は、以下の項目を中心として研究を実施した。
1.リソースの整備:現在公開しているタグ付コーパスのエラー、特に、タグ境界のエラーや改行エラー等の構造的なエラーを中心に修正し、公開した。また、品詞や構文木などの付加的な情報を加えていくことにより質的な向上を図ると共に、生体内でのイベントに関する情報を抽出することを目的として、テキスト中に出現するイベント情報の試験的なマークアップを開始した。
2.オントロジーの拡張:タグ付コーパス中の専門用語を整理することにより分野の概念を再構築し、オントロジーの拡張を行った。また、コーパス中での言語現象を解析することにより、生体内でのイベントなど更に高次の知識概念の体系化を試みた。
3.統合システムの構築:これまでに作成してきたリソースやツール、自然言語処理プログラム等を効率よく利用するためのインターフェースとして、総合システムをデザインした。

Report

(1 results)
  • 2002 Annual Research Report
  • Research Products

    (4 results)

All Other

All Publications (4 results)

  • [Publications] Tomoko Ohta, et al.: "GENIA Corpus : an Annotated Research Abstract Corpus in Molecular Biology Domain"Proc. of the Human Language Technology Conference. (In press). (2002)

    • Related Report
      2002 Annual Research Report
  • [Publications] Tomoko Ohta, et al.: "The GENIA Corpus : an Annotated Corpus in Molecular Biology Domain"Proc. of the 10th International Conference on Intelligent Systems for Molecular Biology (ISMB 2002) poster session. (2002)

    • Related Report
      2002 Annual Research Report
  • [Publications] Jin-Dong Kim, et al.: "Copus-Based Approach to Biological Entity Recognition"Proc. of the Second Meeting of the Special Interest Group on Text Data Mining of ISMB 2002. (2002)

    • Related Report
      2002 Annual Research Report
  • [Publications] Toma Erjavec, et al.: "Stretching the TEI : Converting the Genia Corpus"Proc. of the 4th International Workshop on Linguistically Interpreted Corpora (LINC-03). (In press). (2003)

    • Related Report
      2002 Annual Research Report

URL: 

Published: 2001-04-01   Modified: 2025-11-17  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi