研究課題/領域番号 |
26330343
|
研究機関 | 大学共同利用機関法人情報・システム研究機構(新領域融合研究センター及びライフサイ |
研究代表者 |
山本 泰智 大学共同利用機関法人情報・システム研究機構(新領域融合研究センター及びライフサイ, ライフサイエンス統合データベースセンター, 准教授 (50470076)
|
研究分担者 |
川島 秀一 大学共同利用機関法人情報・システム研究機構(新領域融合研究センター及びライフサイ, ライフサイエンス統合データベースセンター, 助教 (50314274)
片山 俊明 大学共同利用機関法人情報・システム研究機構(新領域融合研究センター及びライフサイ, ライフサイエンス統合データベースセンター, 助教 (60396869)
岡本 忍 大学共同利用機関法人情報・システム研究機構(新領域融合研究センター及びライフサイ, ライフサイエンス統合データベースセンター, 准教授 (90623893)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 文献全文 / オープンアクセス / 微生物 / ゲノム |
研究実績の概要 |
27年度は26年度に引き続き、3人のアノテーターによる手作業でアノテーションデータの充実化を進めた。アノテーションの対象とする文献セットを、26年度と同様に、微生物のゲノム論文のうち、PMC OAサブセットに含まれるフルテキストから、生育環境、単離場所、細胞サイズ、生育至適温度の観点について情報を抽出した。文献数は合計で707であり、文の数は2625、アノテーションの数は3717となった。 また、それぞれの観点については、生育環境が1515で最も多く、続いて単離場所の813、生育至適温度の748、細胞サイズの136と続く。また、得られた結果をResource Description Framework(RDF)を用いて表現するためのモデルを構築した。アノテーション作業は各アノテーターが独立に進める形で行われることから、アノテーションを行う際に生じる様々な疑問点やコメントを関係者で共有するために、毎月一度、ミーティングを開いた。なお、遠方在住のアノテーターはテレビ会議システムを用いての参加である。また、ミーティング時に効率的な情報共有を可能とするために、分散情報共有システムとして、主に複数人でのソフトウェア開発管理をするために開発されたサービスbitbucketを利用している。 計算機を用いた抽出システムについては、Conditional Random Field(CRF)アルゴリズムを用いた手法で、10交差検定によりF値が最大0.78を得ている。これまでの結果をBiocuration 2016会議でポスター発表を行い、世界各国からの参加者と情報交換をした。 また、これまでの4つの観点とは別に、改めて代謝に関する知識、例えば、生合成や窒素固定などを、同じくPMC OAサブセットの中から抽出し、アノテーションする作業に着手している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究課題の目的である、文献全文からの生物情報の抽出についてアノテーターによるデータが順調に蓄積されている。生育場所などの4つの観点については、実績に記述したとおりのサイズが得られており、さらに、新たな観点についてのアノテーションデータが蓄積されている。また、前述の4つの観点それぞれに対する自動抽出システムの開発については、F値で0.7~0.8という精度になり、おおむね良好と判断している。
|
今後の研究の推進方策 |
アノテーションデータの蓄積については、27年度より開始した、代謝に関する情報の抽出を進め、これまでに得られている4観点と共に、データベース化を進める。抽出データのRDFによる表現モデルは、ライフサイエンス統合データベースセンター(DBCLS)にて開発されている公共アノテーション共有システムPubannotation、および統合ゲノムブラウザシステムTogoGenomeとの相互運用性を確保できるように構築する。また、これまでに得られている自動抽出システムを、PMC OAサブセットの、微生物関連の雑誌すべてに対して適用し、定期的に最新の生物情報が蓄積されるシステムを開発する。
|
次年度使用額が生じた理由 |
Biocuration会議の開催時期が4月初頭であり、またデータの蓄積を優先したことなどから、旅費が翌年度になったため。
|
次年度使用額の使用計画 |
28年度に成果発表のための旅費として使用。
|