2017 Fiscal Year Annual Research Report
Extracting Biologically Interesting Metadata from Full-Text Papers
Project/Area Number |
26330343
|
Research Institution | 大学共同利用機関法人情報・システム研究機構(機構本部施設等) |
Principal Investigator |
山本 泰智 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (50470076)
|
Co-Investigator(Kenkyū-buntansha) |
川島 秀一 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任助教 (50314274)
片山 俊明 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任助教 (60396869)
岡本 忍 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (90623893)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | テキストマイニング / 微生物ゲノム / セマンティックウェブ |
Outline of Annual Research Achievements |
生命科学の基盤となる遺伝情報が収められたゲノムに関する情報を、その機能に着目して整理したり俯瞰したりするためにセマンティックウェブ(SW)と呼ばれる技術が注目されている。しかし、このゲノム情報を解釈する上で必須の知見の多くが、いまだ学術文献という自然言語で記載された媒体に収められているままであり、SW技術を利用したゲノム情報解析がしにくい状況にある。本研究では学術論文全文から生物学的に重要なデータを抽出する技術を開発し、その結果をResource Description Framework (RDF)で構造化した。 より具体的には以下のとおりである。まず、微生物の生育環境や単利場所、生育至適温度、細胞サイズなど、ゲノム情報を解釈するために重要な各事項に対するデータ、すなわち、生物メタ情報を抽出するシステムを開発した。 機械的な抽出を行うためには、あらかじめ領域の専門家により、抽出すべきデータを実際の学術論文中に特定する作業(アノテーション)が必要となる。このため、論文全文を機械的な処理がしやすいライセンスと形式で公開されている論文データベースPMCから1000件程度取得して作業した。これに対して生物メタ情報を抽出するプログラムを開発し、結果を評価した。 その結果、生育環境と単利場所については、固有表現抽出(Named Entity Recognition)タスクで良い抽出性能を持つことが知られている機械学習手法、Conditional Random Fields(CRF)を用いると良い結果に繋がることが判明した。また、生育至適温度及び細胞サイズについては、正規表現を用いたパターンマッチと、それで得られた結果に対する文脈判定フィルタを用いると良い結果が得られた。 得られた生物メタ情報はRDF形式で、再利用しやすいように一般公開するため、その表現方法を規定するオントロジーを構築した。
|
Research Products
(2 results)