• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Research-status Report

文献全文からの網羅的な生物メタ情報抽出技術の開発

Research Project

Project/Area Number 26330343
Research Institution大学共同利用機関法人情報・システム研究機構(新領域融合研究センター及びライフサイエンス統合データベースセンター)

Principal Investigator

山本 泰智  大学共同利用機関法人情報・システム研究機構(新領域融合研究センター及びライフサイ, ライフサイエンス統合データベースセンター, 准教授 (50470076)

Co-Investigator(Kenkyū-buntansha) 川島 秀一  大学共同利用機関法人情報・システム研究機構(新領域融合研究センター及びライフサイ, ライフサイエンス統合データベースセンター, 助教 (50314274)
片山 俊明  大学共同利用機関法人情報・システム研究機構(新領域融合研究センター及びライフサイ, ライフサイエンス統合データベースセンター, 助教 (60396869)
岡本 忍  大学共同利用機関法人情報・システム研究機構(新領域融合研究センター及びライフサイ, ライフサイエンス統合データベースセンター, 准教授 (90623893)
Project Period (FY) 2014-04-01 – 2017-03-31
Keywords文献全文 / オープンアクセス / 微生物 / ゲノム
Outline of Annual Research Achievements

27年度は26年度に引き続き、3人のアノテーターによる手作業でアノテーションデータの充実化を進めた。アノテーションの対象とする文献セットを、26年度と同様に、微生物のゲノム論文のうち、PMC OAサブセットに含まれるフルテキストから、生育環境、単離場所、細胞サイズ、生育至適温度の観点について情報を抽出した。文献数は合計で707であり、文の数は2625、アノテーションの数は3717となった。
また、それぞれの観点については、生育環境が1515で最も多く、続いて単離場所の813、生育至適温度の748、細胞サイズの136と続く。また、得られた結果をResource Description Framework(RDF)を用いて表現するためのモデルを構築した。アノテーション作業は各アノテーターが独立に進める形で行われることから、アノテーションを行う際に生じる様々な疑問点やコメントを関係者で共有するために、毎月一度、ミーティングを開いた。なお、遠方在住のアノテーターはテレビ会議システムを用いての参加である。また、ミーティング時に効率的な情報共有を可能とするために、分散情報共有システムとして、主に複数人でのソフトウェア開発管理をするために開発されたサービスbitbucketを利用している。
計算機を用いた抽出システムについては、Conditional Random Field(CRF)アルゴリズムを用いた手法で、10交差検定によりF値が最大0.78を得ている。これまでの結果をBiocuration 2016会議でポスター発表を行い、世界各国からの参加者と情報交換をした。
また、これまでの4つの観点とは別に、改めて代謝に関する知識、例えば、生合成や窒素固定などを、同じくPMC OAサブセットの中から抽出し、アノテーションする作業に着手している。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本研究課題の目的である、文献全文からの生物情報の抽出についてアノテーターによるデータが順調に蓄積されている。生育場所などの4つの観点については、実績に記述したとおりのサイズが得られており、さらに、新たな観点についてのアノテーションデータが蓄積されている。また、前述の4つの観点それぞれに対する自動抽出システムの開発については、F値で0.7~0.8という精度になり、おおむね良好と判断している。

Strategy for Future Research Activity

アノテーションデータの蓄積については、27年度より開始した、代謝に関する情報の抽出を進め、これまでに得られている4観点と共に、データベース化を進める。抽出データのRDFによる表現モデルは、ライフサイエンス統合データベースセンター(DBCLS)にて開発されている公共アノテーション共有システムPubannotation、および統合ゲノムブラウザシステムTogoGenomeとの相互運用性を確保できるように構築する。また、これまでに得られている自動抽出システムを、PMC OAサブセットの、微生物関連の雑誌すべてに対して適用し、定期的に最新の生物情報が蓄積されるシステムを開発する。

Causes of Carryover

Biocuration会議の開催時期が4月初頭であり、またデータの蓄積を優先したことなどから、旅費が翌年度になったため。

Expenditure Plan for Carryover Budget

28年度に成果発表のための旅費として使用。

  • Research Products

    (1 results)

All 2016

All Presentation (1 results) (of which Int'l Joint Research: 1 results)

  • [Presentation] Text2LOD: building high-quality linked open annotation data concerning biological interests2016

    • Author(s)
      Yasunori Yamamoto
    • Organizer
      Biocuration 2016
    • Place of Presentation
      ジュネーブ、スイス
    • Year and Date
      2016-04-10 – 2016-04-14
    • Int'l Joint Research

URL: 

Published: 2017-01-06  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi