2014 Fiscal Year Research-status Report
Project/Area Number |
26330343
|
Research Institution | 大学共同利用機関法人情報・システム研究機構(新領域融合研究センター及びライフサイ |
Principal Investigator |
山本 泰智 大学共同利用機関法人情報・システム研究機構(新領域融合研究センター及びライフサイ, 大学共同利用機関等の部局等, 助教 (50470076)
|
Co-Investigator(Kenkyū-buntansha) |
川島 秀一 大学共同利用機関法人情報・システム研究機構(新領域融合研究センター及びライフサイ, 大学共同利用機関等の部局等, 助教 (50314274)
片山 俊明 大学共同利用機関法人情報・システム研究機構(新領域融合研究センター及びライフサイ, 大学共同利用機関等の部局等, 助教 (60396869)
岡本 忍 大学共同利用機関法人情報・システム研究機構(新領域融合研究センター及びライフサイ, 大学共同利用機関等の部局等, 准教授 (90623893)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 文献全文 / オープンアクセス / NER / バクテリア |
Outline of Annual Research Achievements |
26年度ではPMCのオープンアクセスサブセットを対象とし、アノテーターによる手作業で主に、生育環境、単離場所、細胞サイズ、成長至適温度の4観点(アスペクト)からの生物メタ情報について論文全文から実際の自然言語による表現やそれを含む文などを抽出し、機械可読な形式での正規化を行うことで抽出処理の自動化に資する言語資源を構築した。処理対象文献数は500件で、そのうち最も多い生物メタ情報のアスペクトは生育環境であった。続いて単離場所、成長至適温度、細胞サイズと続く。また処理対象文献は、記述されているゲノムの生物種が予め適切に判明していることを条件にし、また、アノテーターの専門性を踏まえてKEGG organismsのバクテリアと定めた。 実際に手作業で取得された生物メタ情報は4265件あり、このうち、最多のアスペクトである生育環境については1595あった。そして生育環境の取得を自動化するための方針として、自然言語処理技術における最新の固有語認識(Named Entity Recognition: NER)ツールであるStanford NERを用いることとした。これは条件付き確率場(Conditional Random Field: CRF)という手法を用いており、自然言語のような、単語がある一定の規則で順に連続して現れるような状況を適切にモデル化できる特徴があることから本課題に適していると判断した。また、専門用語の辞書としてEnvOに含まれる語を利用した。上記1595のうち、実現可能性実験としてのNERの処理対象として利用可能なもの1097を用いて十交差検定を行ったところ、F値として0.63であった。この結果は良いとは言えないが、本評価は、単語単位での正否をみているため、「環境」として必要な情報が抽出されているかという点から専門家が判断した場合は、より高い精度となることは確認された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
26年度の計画としては当初表現型オントロジーに対応する生物メタ情報の抽出を試みる予定であったが、実際の文献を精査していくと概要で述べた通り、生育環境が多数であったことから、最初に取り組むべき課題として生育環境にすることとした。ただ研究課題全体の進展という点においては特に問題が発生してはおらず、NERツールを利用した抽出とその評価を行う実験系が作られており、生育環境だけでなく、アノテーターによる言語資源が用意され次第速やかに同様の実験を行うことが可能である。このことから、当初計画にある、生物メタ情報を抽出するプログラムを開発し、結果を評価することも既に行うことができている。また、当初は100件程度としていたアノテーション対象の文献数は実際には上述の通り、500件という結果になり、こちらは想定以上のデータが蓄積されている。
|
Strategy for Future Research Activity |
引き続きアノテーターによる生物メタ情報のPMCオープンアクセスサブセットの論文全文からの抽出と機械可読データの蓄積を進めるとともに、NERの精度向上に取り組む。ただし、26年度においてKEGG organismsのバクテリアについてはPMCオープンアクセスサブセットを対象にして既に相当量の生物メタ情報が蓄積されたので、対象となる生物種を広げる計画である。また、これまでに得られているNERの結果をアノテーターとともに精査し、具体的な精度向上の方策を探る計画である。
|
Causes of Carryover |
アノテーターへの謝金が想定よりも少なかったこと、学会等への参加を見送ったことなどが理由。
|
Expenditure Plan for Carryover Budget |
引き続きアノテーターへの謝金として使用するとともに、これまで得られている成果については関連学会において報告するために使用する計画である。
|