2016 Fiscal Year Research-status Report
Project/Area Number |
26330343
|
Research Institution | 大学共同利用機関法人情報・システム研究機構(機構本部施設等) |
Principal Investigator |
山本 泰智 大学共同利用機関法人情報・システム研究機構(新領域融合研究センター及びライフサイエンス統合データベースセンター), データサイエンス共同利用基盤施設, 特任准教授 (50470076)
|
Co-Investigator(Kenkyū-buntansha) |
川島 秀一 大学共同利用機関法人情報・システム研究機構(新領域融合研究センター及びライフサイエンス統合データベースセンター), データサイエンス共同利用基盤施設, 特任助教 (50314274)
片山 俊明 大学共同利用機関法人情報・システム研究機構(新領域融合研究センター及びライフサイエンス統合データベースセンター), データサイエンス共同利用基盤施設, 特任助教 (60396869)
岡本 忍 大学共同利用機関法人情報・システム研究機構(新領域融合研究センター及びライフサイエンス統合データベースセンター), データサイエンス共同利用基盤施設, 特任准教授 (90623893)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | マニュアルアノテーション / 論文全文 / オープンアクセス |
Outline of Annual Research Achievements |
平成28年度は、27年度に続き微生物に関する論文の全文を対象として、領域専門家2人によるマニュアルアノテーションを行い、微生物の表現型に関する記述のコーパス構築を進めた。具体的にはPMCオープンアクセスサブセットのうち、研究分担者が一定の基準で選抜した論文について、生物学的な観点から、重要な情報に該当する部分を抽出して、機械学習手法で利用可能な標準化作業を行った。抽出対象の生物学的な観点については、平成27年度までの生育環境や単離場所にくわえて、表現型、代謝能力について、生物種の taxonomy ID を特定し、自然言語による特徴的な記述表現(isolated from xxx などの表現)を抽出した。現在までに、338 論文から、窒素固定や生合成などの6観点において 1652のアノテーションデータを抽出してデータベース化を行った。 生育環境及び単離場所については、これまでに得られているマニュアルアノテーション情報を利用して機械学習手法CRFによる自動固有表現抽出器の構築と調整を行った。性能検証の結果、十交差検定では、生育環境を対象とした場合で、F値を0.81まで向上させることが出来た。しかし、ここで生成した固有表現抽出器を、検定に用いていない新規論文を対象として評価すると正解率が4割弱の性能しか出ていない。その原因の一つとしては、検出された固有表現の主語が、論文の文章中に明示的に記述されていないため偽陽性となってしまう事が分かった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
マニュアルアノテーションによる、コーパスの構築は順調に推移しているが、機械学習を用いた自動抽出システムの構築に遅れがみられる。これは、交差検定を指標にして調整した自動抽出システムによる、新規の論文への適用結果が当初の想定よりも芳しくないことに起因する。最も大きな原因としては、検出された固有表現の主語にあたる生物種名が、必ずしも論文の対象文章中に明示的に記述されておらず、代名詞による係り受け表現になっているため、偽陽性の検出がされてしまうことが判明した。
|
Strategy for Future Research Activity |
今後の改善方法としては、機械学習手法を複数試すとともに、生物種名の抽出プログラムなどを組み合わせることで、新規の論文に対する検出精度を向上させる予定である。また、引き続きマニュアルアノテーションデータの蓄積をすることで更に信頼性の高い正解データの充実も図る。
|
Causes of Carryover |
平成28年度において使用予定であった成果発表にかかる費用を抑えたため。
|
Expenditure Plan for Carryover Budget |
コーパスを充実させるための謝金および成果発表に使用する計画である。
|