• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Development of a Practical Medical Dictionary for Medical Term Entity Linking

Research Project

Project/Area Number 23K28182
Project/Area Number (Other) 23H03492 (2023)
Research Category

Grant-in-Aid for Scientific Research (B)

Allocation TypeMulti-year Fund (2024)
Single-year Grants (2023)
Section一般
Review Section Basic Section 62010:Life, health and medical informatics-related
Research InstitutionThe University of Tokyo

Principal Investigator

河添 悦昌  東京大学, 医学部附属病院, 特任准教授 (10621477)

Co-Investigator(Kenkyū-buntansha) 篠原 恵美子  東京大学, 医学部附属病院, 特任助教 (40582755)
荒牧 英治  奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (70401073)
Project Period (FY) 2024-04-01 – 2026-03-31
Project Status Granted (Fiscal Year 2024)
Budget Amount *help
¥18,980,000 (Direct Cost: ¥14,600,000、Indirect Cost: ¥4,380,000)
Fiscal Year 2025: ¥4,940,000 (Direct Cost: ¥3,800,000、Indirect Cost: ¥1,140,000)
Fiscal Year 2024: ¥4,940,000 (Direct Cost: ¥3,800,000、Indirect Cost: ¥1,140,000)
Fiscal Year 2023: ¥9,100,000 (Direct Cost: ¥7,000,000、Indirect Cost: ¥2,100,000)
Keywords自然言語処理 / エンティティリンキング / 診療記録 / 医療用語 / 非連続スパン / 機械学習
Outline of Research at the Start

診療テキストは自由記載されることが多いため、構造化データとするために自然言語処理を活用する必要がある。このような医療テキスト構造化の出口の一つは、テキストから患者に関する情報(エンティティ)を抽出し、これまでに整備されてきた医療用語集の用語に対応付けること(Entity Linking;EL)である。これにより、テキストに出現する患者の疾患や症状を名寄せして数え上げることで統計解析に耐えうるデータとなる 。本研究は、ELを行なうための実践的な医療用語辞書を開発し、その性能評価を通して診療テキストを対象とするELの達成に必要なリソースと技術要件を明らかにする。

Outline of Annual Research Achievements

診療テキストを統計解析可能な構造化データにするため、固有表現抽出(NER)とエンティティリンキング(EL)を実現する医療用語辞書および技術要件を明らかにすることを目指し、2024年度に以下の三つの課題を実施した。
1) EL評価用データセット開発:詳細アノテーション済みコーパスに対して、UMLS概念コードを人手により付与した。症例報告366件に対しては47,313の文字列スパンに62,060のコードを、東大病院退院サマリ32件には11,960スパンに21,710コードを、同病院看護記録32件には2,703スパンに3,205コードを付与し、精緻なEL評価用リソースを構築した。
2) 非連続スパンのNERへの影響調査:従来のNERは連続スパンを前提とするが、非連続スパンとして表現される患者状態も存在する。UMLS付き詳細アノテーションを用い調査した結果、約18.6%の患者状態が非連続スパンで記述されており、特に身体部位や検査項目に関する情報が分断されやすいことが判明した。そのため、従来の前提では精度と網羅性に限界が生じることを定量的に示し、今後は非連続スパンを許容するNER手法の開発が必要であることを提言した。
3) DecoderモデルによるNER手法の開発:EncoderによるNERの精度は、学習用データの量に依存することから開発コストが高い。そこで、大規模言語モデル(LLM)を活用したDecoder型NERを検討した。Few-shot提示によるNERをベースラインとし、アノテーションガイドラインをプロンプトに追加する手法を複数の商用LLMで評価した。i2b2-2012/2014やMedTxt-CRといった英日混在コーパスで検証した結果、特にRecallおよびF1スコアが一貫して向上し、ガイドライン情報がfew-shot学習の一般化能力を効果的に強化することを確認した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本研究は、診療テキストから患者状態を抽出しUMLS概念へリンクする実践的基盤の確立を目指すものであり、2024年度の成果は計画通り順調に進んでいる。第一にEL評価用データセットでは、症例報告・退院サマリ・看護記録計430件に対し延べ8.7万件超のUMLSコードを付与し、大規模かつ多様な評価基盤を整備した。第二に、非連続スパンが抽出性能に及ぼす影響を定量化し、患者状態の 18.6%が従来のNERで取りこぼされるリスクを提示し、診療記録におけるNERとELに求められる技術要件を深堀りした。第三に、Decoder系LLMを用いた少量学習NERを開発し、プロンプトに注釈ガイドを追加することでi2b2・MedTxt各コーパスでRecallとF1を一貫して向上させ、アノテーションコストを抑えつつ高精度抽出を実証した。これらのことから、本研究は当初の目的に沿って順調に進捗していると言える。

Strategy for Future Research Activity

これまでの成果を発展し、EL評価用データセットを活用した医療用語辞書の実装と、デコーダモデル(LLM)を活用した非連続スパンに対応するNERの性能向上を目指す。また、医療用語辞書を活用したELをNERに続くパイプラインで行った際の性能評価を通して、診療テキストに対するNERとENの精度向上を目指し成果物を公開する。

Report

(2 results)
  • 2024 Research-status Report
  • 2023 Annual Research Report
  • Research Products

    (8 results)

All 2025 2024 2023 Other

All Journal Article (5 results) (of which Peer Reviewed: 5 results,  Open Access: 3 results) Presentation (2 results) Remarks (1 results)

  • [Journal Article] Natural language processing of electronic medical records identifies cardioprotective agents for anthracycline induced cardiotoxicity2025

    • Author(s)
      Kawazoe Yoshimasa、Tsuchiya Masami、Shimamoto Kiminori、Seki Tomohisa、Shinohara Emiko、Yada Shuntaro、Wakamiya Shoko、Imai Shungo、Aramaki Eiji、Hori Satoko
    • Journal Title

      Scientific Reports

      Volume: 15 Issue: 1

    • DOI

      10.1038/s41598-025-91187-6

    • Related Report
      2024 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] Post-marketing surveillance of anticancer drugs using natural language processing of electronic medical records2024

    • Author(s)
      Kawazoe Yoshimasa、Shimamoto Kiminori、Seki Tomohisa、Tsuchiya Masami、Shinohara Emiko、Yada Shuntaro、Wakamiya Shoko、Imai Shungo、Hori Satoko、Aramaki Eiji
    • Journal Title

      npj Digital Medicine

      Volume: 7 Issue: 1

    • DOI

      10.1038/s41746-024-01323-1

    • Related Report
      2024 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] Uncovering condition information loss in medical text extraction: The challenge of non-contiguous spans2024

    • Author(s)
      Shinohara Emiko、Shimamoto Kiminori、Kawazoe Yoshimasa
    • Journal Title

      Next Research

      Volume: 1 Issue: 2 Pages: 100044-100044

    • DOI

      10.1016/j.nexres.2024.100044

    • Related Report
      2024 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] Towards Structuring Clinical Texts: Joint Entity and Relation Extraction from Japanese Case Report Corpus2024

    • Author(s)
      Shibata Daisaku, Shinohara Emiko, Shimamoto Kiminori, Kawazoe Yoshimasa
    • Journal Title

      Stud Health Technol Inform

      Volume: 25;310 Pages: 559-563

    • DOI

      10.3233/shti231027

    • ISBN
      9781643684567, 9781643684574
    • Related Report
      2023 Annual Research Report
    • Peer Reviewed
  • [Journal Article] UMLSからの同義語を追加した形態素解析辞書を使用したPhenotypingの性能評価2023

    • Author(s)
      榎原 芽美, 柴田 大作, 篠原 恵美子, 河添 悦昌, 大江 和彦
    • Journal Title

      医療情報学

      Volume: 44(1) Pages: 21-28

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed
  • [Presentation] アレルギー情報の標準化を目指すJ-FAGYアレルゲン用語集2023

    • Author(s)
      河添 悦昌, 永島 里美, 大江 和彦
    • Organizer
      第43回医療情報学連合大会
    • Related Report
      2023 Annual Research Report
  • [Presentation] UMLSからの同義語を追加した形態素解析辞書を使用したPhenotypingの性能評価2023

    • Author(s)
      榎原 芽美,柴田 大作,篠原 恵美子, 河添 悦昌, 大江 和彦
    • Organizer
      第27回日本医療情報学春季学術大会
    • Related Report
      2023 Annual Research Report
  • [Remarks] 症例報告コーパス(iCorpus)

    • URL

      https://ai-health.m.u-tokyo.ac.jp/home/research/corpus

    • Related Report
      2023 Annual Research Report

URL: 

Published: 2023-04-18   Modified: 2025-12-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi