• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2004 年度 実績報告書

文献からの生物知識の抽出と体系化

研究課題

研究課題/領域番号 12208001
研究機関東京大学

研究代表者

高木 利久  東京大学, 大学院・新領域創成科学研究科, 教授 (30110836)

研究分担者 辻井 潤一  東京大学, 大学院・情報学環, 教授 (20026313)
高井 貴子  東京大学, 大学院・情報理工学系研究科, 科学技術振興特任教員 (60222840)
福田 賢一郎  産業技術総合研究所, 生命情報科学研究センター, 研究員 (10357890)
小池 麻子  株式会社日立製作所中央研究所ライフサイエンスセンター, 研究員
キーワードオントロジー / ゲノムデータベース / シグナル伝達系 / テキストからの情報抽出 / 自然言語処理 / タグ付きコーパス / 遺伝子辞書 / パスウェイデータベース
研究概要

生命機能を計算機でうまく扱えるようにすることを目標に、具体的には、以下の課題に取り組んでいる。
a)文献等から相互作用に関する知識や機能に関する用語を自動的に抽出するシステムを開発すること
b)このシステムを用いて種々の辞書やデータベースを構築すること
c)知識抽出システムのために必要となるコーパスやオントロジー等を整備すること
上記の課題に関する主な研究成果は下記の通りである。
a)知識抽出システムの開発
文献から自動的に遺伝子機能を収集するための文の構造解析+抽出プログラムを作成した。遺伝子レベルで約19万件、family nameレベルで15万件ほどの機能が高精度で抽出できた。抽出性能は再現率45-50%・精度91-94%であり、従来の機械学習の方法よりも高精度である。本手法を大量のアブストラクトに適用することにより、これまでアノテーション出来ていなかった遺伝子の機能情報を数多く抽出した。
b)辞書やデータベースの構築と公開
生物学的機能に関する用語を半自動的に集めて機能用語辞書とした。2.5万程度の用語(名詞句)もしくは機能を意味する動詞等を収集した。この機能用語辞書および上記抽出システムにより得られた遺伝子機能情報を、すでに公開しているPRIMEデータベースを追加・拡張する形で公開した。
c)知識抽出のためのコーパスやオントロジーの整備
公開中のGENIAコーパスのエラーを修正し、品詞情報を付与したバージョン3.02pを公開した。また、PennTree-bank形式の構文情報付与の作業に着手し、200件分について一時作業を終了した。イベント情報については付与する情報のスキーマを決定した。外部リソース(GOなどのオントロジー)とGENIAオントロジーの対応をとり、テキスト中に現れる専門用語を用いてオントロジーを拡張するため、テキスト中の用語の表記の揺れを吸収するマッチング手法・異表記を自動生成する手法を開発した。

  • 研究成果

    (7件)

すべて 2004

すべて 雑誌論文 (6件) 図書 (1件)

  • [雑誌論文] Prediction of protein-protein interaction sites using support vector machines2004

    • 著者名/発表者名
      Koike, A.
    • 雑誌名

      Protein Engineering Design and Selection 17(2)

      ページ: 165-173

  • [雑誌論文] A practical partial parser for biomedical literature summarization2004

    • 著者名/発表者名
      Yamamoto, Y.
    • 雑誌名

      Proceedings of 1st international workshop on Natural Language Understanding and Cognitive Science

      ページ: 75-85

  • [雑誌論文] Integrative annotation of 21,037 human genes validated by full-length cDNA clones2004

    • 著者名/発表者名
      Imanishi, T.
    • 雑誌名

      PLoS BIOLOGY 2(6)

      ページ: 0001-0020

  • [雑誌論文] Gene/protein/family name recognition in biomedical literature, Linking Biological Literature, Ontologies and Databases : Tools for Users2004

    • 著者名/発表者名
      Koike, A.
    • 雑誌名

      Workshop in conjunction with NAACL/ HLT 2004

      ページ: 9-16

  • [雑誌論文] Cell Signaling Networks Ontology2004

    • 著者名/発表者名
      Takai-Igarashi, T.
    • 雑誌名

      In Silico Biology 4

      ページ: 1-7

  • [雑誌論文] A Pathway Editor for Literature-based Knowledge Curation2004

    • 著者名/発表者名
      Fukuda, K.
    • 雑誌名

      Conferences in Research and Practice in Information Technology 29

      ページ: 339-344

  • [図書] 統計物理化学から学ぶバイオインフォマティクス2004

    • 著者名/発表者名
      Peter Clote (高木利久 監訳)
    • 総ページ数
      272
    • 出版者
      共立出版

URL: 

公開日: 2006-07-12   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi