• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

新たな医療知識の獲得に向けた医学系論文の文脈構造の解析と情報抽出への応用

研究課題

研究課題/領域番号 21K17815
研究種目

若手研究

配分区分基金
審査区分 小区分61030:知能情報学関連
研究機関国立研究開発法人理化学研究所

研究代表者

西田 典起  国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (50890589)

研究期間 (年度) 2021-04-01 – 2025-03-31
研究課題ステータス 交付 (2023年度)
配分額 *注記
4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2022年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2021年度: 2,600千円 (直接経費: 2,000千円、間接経費: 600千円)
キーワード知識獲得 / 情報抽出 / 文書レベル関係抽出 / 談話解析 / 自然言語処理 / 医療言語処理 / コーパス / 談話構造
研究開始時の研究の概要

医学系分野における膨大な論文集合から有用な医療情報を抽出し、知識として体系化し、医療のために活用する方法論の開発は社会的に求められている。本研究では、医学系論文の談話構造 (文書構造、文脈構造) を解析し、そこから新たな医療知識を獲得することができるのではと考え、医学系論文からの知識獲得に向けた談話構造のスキームを再定義し、それに基づいたコーパス (ツリーバンク) を構築し、高精度かつ低コストな談話構造解析および解析された談話構造に基づく医療情報抽出 (固有表現抽出、関係抽出、照応解析) の方法論を開発する。また、開発した方法論の医学分野に限られない普遍性についても追及する。

研究実績の概要

医学生物学知識獲得は、論文などの入力文書から有用な関係情報を抽出し、それによって既存のナレッジグラフ・オントロジーなどの知識資源を自動的に改善・補完することを目的とする。しかし、知識獲得技術が現実において十分に実用化されているとは言い難い。その原因の一つとして、入力文書から最終的な出力形式まで一貫して動いて、専門家のニーズを適切に反映し、誰でも利用しやすいシステムが存在していないことが挙げられる。これは、これまでの知識獲得技術が、薬剤や疾病名の言語表現(固有表現)を同定するNamed Entity Recognition (NER)、固有表現を言語資源上のエンティティ (ID) に紐づける Entity Disambiguation (ED), エンティティ間の関係を同定する Document-Level Relation Extraction (DocRE) という各サブタスク(モジュール)に閉じて研究されてきたことが背景にある。
上記の背景を受けて、2023年度は、まず医学生物学知識獲得の実用的なベースラインシステムを構築した。構築したベースラインシステムは、NER、ED、DocREモジュールから構成され、各モジュールは、従来のBERTベースの教師あり学習モデルと、近年発展が進んでいる大規模言語モデルとIn-Context Learningを組み合わせたモデルを実装しており、各モジュールの組み合わせや手法についてはユーザーが自由に設定できるようになっている。
また、上記の研究において、大規模言語モデルの構造出力の課題を発見し、それを軽量コストで大幅に改善することができる手法を提案した。
さらに、理研BRCと共同研究を行い、現実のオントロジーを対象とした知識獲得技術の開発と運用実験を行った。
上記の研究成果については、2024年5月と6月それぞれに英語論文として投稿準備中である。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

研究実績の概要で記述したように、2023年度では、医学生物学知識獲得のための実用的なベースラインシステムの構築、本タスクにおける大規模言語モデルの改善手法の提案、現実のオントロジーを対象とした知識獲得システムの構築と運用実験、という3つの課題を遂行した。これらは現在論文準備中であり(3つ目の提出締切は5月17日)、おおむね順調に進展していると判断した。

今後の研究の推進方策

2024年度の上半期では、上記の成果の論文投稿とソフトウェアの公開を行う。2024年度の下半期では、構築したベースラインシステムをもとに医学生物学知識獲得の現状の課題を精査し、昨年度までに取り組んだ談話解析技術によって問題が改善されるのか検証したい。

報告書

(3件)
  • 2023 実施状況報告書
  • 2022 実施状況報告書
  • 2021 実施状況報告書
  • 研究成果

    (2件)

すべて 2022

すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (1件) (うち国際学会 1件)

  • [雑誌論文] Out-of-Domain Discourse Dependency Parsing via Bootstrapping: An Empirical Analysis on Its Effectiveness and Limitation2022

    • 著者名/発表者名
      Nishida Noriki、Matsumoto Yuji
    • 雑誌名

      Transactions of the Association for Computational Linguistics

      巻: 10 ページ: 127-144

    • DOI

      10.1162/tacl_a_00451

    • 関連する報告書
      2021 実施状況報告書
    • 査読あり / オープンアクセス
  • [学会発表] Out-of-Domain Discourse Dependency Parsing via Bootstrapping: An Empirical Analysis on Its Effectiveness and Limitation2022

    • 著者名/発表者名
      Noriki Nishida, Yuji Matsumoto
    • 学会等名
      60th Annual Meeting of the Association for Computational Linguistics (ACL 2022)
    • 関連する報告書
      2021 実施状況報告書
    • 国際学会

URL: 

公開日: 2021-04-28   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi