• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2017 年度 実績報告書

文献全文からの網羅的な生物メタ情報抽出技術の開発

研究課題

研究課題/領域番号 26330343
研究機関大学共同利用機関法人情報・システム研究機構(機構本部施設等)

研究代表者

山本 泰智  大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (50470076)

研究分担者 川島 秀一  大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任助教 (50314274)
片山 俊明  大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任助教 (60396869)
岡本 忍  大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (90623893)
研究期間 (年度) 2014-04-01 – 2018-03-31
キーワードテキストマイニング / 微生物ゲノム / セマンティックウェブ
研究実績の概要

生命科学の基盤となる遺伝情報が収められたゲノムに関する情報を、その機能に着目して整理したり俯瞰したりするためにセマンティックウェブ(SW)と呼ばれる技術が注目されている。しかし、このゲノム情報を解釈する上で必須の知見の多くが、いまだ学術文献という自然言語で記載された媒体に収められているままであり、SW技術を利用したゲノム情報解析がしにくい状況にある。本研究では学術論文全文から生物学的に重要なデータを抽出する技術を開発し、その結果をResource Description Framework (RDF)で構造化した。
より具体的には以下のとおりである。まず、微生物の生育環境や単利場所、生育至適温度、細胞サイズなど、ゲノム情報を解釈するために重要な各事項に対するデータ、すなわち、生物メタ情報を抽出するシステムを開発した。
機械的な抽出を行うためには、あらかじめ領域の専門家により、抽出すべきデータを実際の学術論文中に特定する作業(アノテーション)が必要となる。このため、論文全文を機械的な処理がしやすいライセンスと形式で公開されている論文データベースPMCから1000件程度取得して作業した。これに対して生物メタ情報を抽出するプログラムを開発し、結果を評価した。
その結果、生育環境と単利場所については、固有表現抽出(Named Entity Recognition)タスクで良い抽出性能を持つことが知られている機械学習手法、Conditional Random Fields(CRF)を用いると良い結果に繋がることが判明した。また、生育至適温度及び細胞サイズについては、正規表現を用いたパターンマッチと、それで得られた結果に対する文脈判定フィルタを用いると良い結果が得られた。
得られた生物メタ情報はRDF形式で、再利用しやすいように一般公開するため、その表現方法を規定するオントロジーを構築した。

  • 研究成果

    (2件)

すべて 2018 その他

すべて 学会発表 (1件) (うち国際学会 1件) 備考 (1件)

  • [学会発表] Towards Making Knowledge in Literature LOD2018

    • 著者名/発表者名
      Yasunori Yamamoto, Shinobu Okamoto, Shuichi Kawashima, Toshiaki Katayama
    • 学会等名
      Biocuration 2018
    • 国際学会
  • [備考] TogoGenome

    • URL

      http://togogenome.org/

URL: 

公開日: 2018-12-17  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi