• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

新たな医療知識の獲得に向けた医学系論文の文脈構造の解析と情報抽出への応用

Research Project

Project/Area Number 21K17815
Research Category

Grant-in-Aid for Early-Career Scientists

Allocation TypeMulti-year Fund
Review Section Basic Section 61030:Intelligent informatics-related
Research InstitutionInstitute of Physical and Chemical Research

Principal Investigator

西田 典起  国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (50890589)

Project Period (FY) 2021-04-01 – 2025-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2021: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
Keywords知識獲得 / 情報抽出 / 文書レベル関係抽出 / 談話解析 / 自然言語処理 / 医療言語処理 / コーパス / 談話構造
Outline of Research at the Start

医学系分野における膨大な論文集合から有用な医療情報を抽出し、知識として体系化し、医療のために活用する方法論の開発は社会的に求められている。本研究では、医学系論文の談話構造 (文書構造、文脈構造) を解析し、そこから新たな医療知識を獲得することができるのではと考え、医学系論文からの知識獲得に向けた談話構造のスキームを再定義し、それに基づいたコーパス (ツリーバンク) を構築し、高精度かつ低コストな談話構造解析および解析された談話構造に基づく医療情報抽出 (固有表現抽出、関係抽出、照応解析) の方法論を開発する。また、開発した方法論の医学分野に限られない普遍性についても追及する。

Outline of Annual Research Achievements

医学生物学知識獲得は、論文などの入力文書から有用な関係情報を抽出し、それによって既存のナレッジグラフ・オントロジーなどの知識資源を自動的に改善・補完することを目的とする。しかし、知識獲得技術が現実において十分に実用化されているとは言い難い。その原因の一つとして、入力文書から最終的な出力形式まで一貫して動いて、専門家のニーズを適切に反映し、誰でも利用しやすいシステムが存在していないことが挙げられる。これは、これまでの知識獲得技術が、薬剤や疾病名の言語表現(固有表現)を同定するNamed Entity Recognition (NER)、固有表現を言語資源上のエンティティ (ID) に紐づける Entity Disambiguation (ED), エンティティ間の関係を同定する Document-Level Relation Extraction (DocRE) という各サブタスク(モジュール)に閉じて研究されてきたことが背景にある。
上記の背景を受けて、2023年度は、まず医学生物学知識獲得の実用的なベースラインシステムを構築した。構築したベースラインシステムは、NER、ED、DocREモジュールから構成され、各モジュールは、従来のBERTベースの教師あり学習モデルと、近年発展が進んでいる大規模言語モデルとIn-Context Learningを組み合わせたモデルを実装しており、各モジュールの組み合わせや手法についてはユーザーが自由に設定できるようになっている。
また、上記の研究において、大規模言語モデルの構造出力の課題を発見し、それを軽量コストで大幅に改善することができる手法を提案した。
さらに、理研BRCと共同研究を行い、現実のオントロジーを対象とした知識獲得技術の開発と運用実験を行った。
上記の研究成果については、2024年5月と6月それぞれに英語論文として投稿準備中である。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

研究実績の概要で記述したように、2023年度では、医学生物学知識獲得のための実用的なベースラインシステムの構築、本タスクにおける大規模言語モデルの改善手法の提案、現実のオントロジーを対象とした知識獲得システムの構築と運用実験、という3つの課題を遂行した。これらは現在論文準備中であり(3つ目の提出締切は5月17日)、おおむね順調に進展していると判断した。

Strategy for Future Research Activity

2024年度の上半期では、上記の成果の論文投稿とソフトウェアの公開を行う。2024年度の下半期では、構築したベースラインシステムをもとに医学生物学知識獲得の現状の課題を精査し、昨年度までに取り組んだ談話解析技術によって問題が改善されるのか検証したい。

Report

(3 results)
  • 2023 Research-status Report
  • 2022 Research-status Report
  • 2021 Research-status Report
  • Research Products

    (2 results)

All 2022

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (1 results) (of which Int'l Joint Research: 1 results)

  • [Journal Article] Out-of-Domain Discourse Dependency Parsing via Bootstrapping: An Empirical Analysis on Its Effectiveness and Limitation2022

    • Author(s)
      Nishida Noriki、Matsumoto Yuji
    • Journal Title

      Transactions of the Association for Computational Linguistics

      Volume: 10 Pages: 127-144

    • DOI

      10.1162/tacl_a_00451

    • Related Report
      2021 Research-status Report
    • Peer Reviewed / Open Access
  • [Presentation] Out-of-Domain Discourse Dependency Parsing via Bootstrapping: An Empirical Analysis on Its Effectiveness and Limitation2022

    • Author(s)
      Noriki Nishida, Yuji Matsumoto
    • Organizer
      60th Annual Meeting of the Association for Computational Linguistics (ACL 2022)
    • Related Report
      2021 Research-status Report
    • Int'l Joint Research

URL: 

Published: 2021-04-28   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi