• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Annual Research Report

Development of a Practical Medical Terminology Dictionary toward Entity Linking

Research Project

Project/Area Number 23H03492
Allocation TypeSingle-year Grants
Research InstitutionThe University of Tokyo

Principal Investigator

河添 悦昌  東京大学, 医学部附属病院, 特任准教授 (10621477)

Co-Investigator(Kenkyū-buntansha) 篠原 恵美子  東京大学, 医学部附属病院, 特任助教 (40582755)
荒牧 英治  奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (70401073)
Project Period (FY) 2023-04-01 – 2026-03-31
Keywords医療用語 / 診療記録 / 自然言語処理 / エンティティリンキング
Outline of Annual Research Achievements

診療テキストは自由記載されることが多いため、構造化データとするために自然言語処理を活用する必要がある。このような医療テキスト構造化の出口の一つは、テキストから患者に関する情報(エンティティ)を抽出し、これまでに整備されてきた医療用語集の用語に対応付けること(EntityLinking;EL)である。これにより、テキストに出現する患者の疾患や症状を名寄せして数え上げることで統計解析に耐えうるデータとなる。本研究は、ELを行なうための実践的な医療用語辞書を開発し、その性能評価を通して診療テキストを対象とするELの達成に必要なリソースと技術要件を明らかとする。2023年度は以下の研究・開発課題を実施した。
(1)統合医療用語集:医療分野では、英語リソースも含めると数多くの用語集が整備されており、用語間の対応付けが取られているものも複数存在する。この既存の用語集用語の間の対応関係を利用し、一つの用語に対して、他の用語集において同義の関係にある用語を表形式に整理した用語集の開発に取り組んだ。
(2)アノテーション仕様とツール:実際の医療テキストに出現する用語を「統合医療用語集」の用語に対応付けて収載するために、医療テキストに対して、UMLSコードを対応付けるためのアノテーション仕様とツール(NLPアノテーションツール「brat」プラグイン)を開発し、アノテーション仕様は論文として投稿した。また、約360の公開可能な症例報告に対して、約60,000件の用語をUMLSコードに対応付けを実施した。
(3)アノテーションの再現手法:生成型言語モデルを利用してアノテーション(固有表現抽出+エンティティリンキング)を再現する手法の開発に着手した。特に、UMLSなどの専用のデータベースのコードに対応付けるための精度が十分ではないため、これを改善するための方法が課題であると認識した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

2023年度の研究・開発課題(1)-(3)について、(1)に関しては関連する研究が和文論文として掲載され、(2)に関して開発したアノテーション仕様に基づいて約60000件のアノテーションを実施し、得られた成果を英文論文として投稿した。(3)に関しては、昨今発展の著しい生成型言語モデルを活用しアノテーションを再現する手法の開発に着手した。これらより一定の成果が得られたと考え、概ね順調であると判断した。

Strategy for Future Research Activity

引き続き、前述の研究・開発課題(1)-(3)を実施する。特に、(3)の大規模生成型言語モデルによって、EntityLinking(EL)アノテーションの再現を精度良く行うことが可能となれば、それ自体がELのソリューションとなる。また、統合医学用語集に収載する用語を増やすことにも繋がり、より少ないコンピュータリソースで動作する形態素解析器による手法の精度も向上すると考えられる。そのため、本研究の学術的な興味である、ELの達成に必要なリソースと技術要件を明らかとすることに貢献すると考えている。

  • Research Products

    (5 results)

All 2024 2023 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (2 results) Remarks (1 results)

  • [Journal Article] Towards Structuring Clinical Texts: Joint Entity and Relation Extraction from Japanese Case Report Corpus2024

    • Author(s)
      Shibata Daisaku, Shinohara Emiko, Shimamoto Kiminori, Kawazoe Yoshimasa
    • Journal Title

      Stud Health Technol Inform

      Volume: 25;310 Pages: 559-563

    • DOI

      10.3233/SHTI231027

    • Peer Reviewed
  • [Journal Article] UMLSからの同義語を追加した形態素解析辞書を使用したPhenotypingの性能評価2023

    • Author(s)
      榎原 芽美, 柴田 大作, 篠原 恵美子, 河添 悦昌, 大江 和彦
    • Journal Title

      医療情報学

      Volume: 44(1) Pages: 21-28

    • Peer Reviewed
  • [Presentation] アレルギー情報の標準化を目指すJ-FAGYアレルゲン用語集2023

    • Author(s)
      河添 悦昌, 永島 里美, 大江 和彦
    • Organizer
      第43回医療情報学連合大会
  • [Presentation] UMLSからの同義語を追加した形態素解析辞書を使用したPhenotypingの性能評価2023

    • Author(s)
      榎原 芽美,柴田 大作,篠原 恵美子, 河添 悦昌, 大江 和彦
    • Organizer
      第27回日本医療情報学春季学術大会
  • [Remarks] 症例報告コーパス(iCorpus)

    • URL

      https://ai-health.m.u-tokyo.ac.jp/home/research/corpus

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi