医療用語のエンティティリンキングに向けた実践的医療用語辞書の開発

研究課題

研究課題/領域番号	23K28182
補助金の研究課題番号	23H03492 (2023)
研究種目	基盤研究(B)
配分区分	基金 (2024) 補助金 (2023)
応募区分	一般
審査区分	小区分62010:生命、健康および医療情報学関連
研究機関	東京大学
研究代表者	河添悦昌東京大学, 医学部附属病院, 特任准教授 (10621477)
研究分担者	篠原恵美子東京大学, 医学部附属病院, 特任助教 (40582755) 荒牧英治奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (70401073)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	18,980千円 (直接経費: 14,600千円、間接経費: 4,380千円) 2025年度: 4,940千円 (直接経費: 3,800千円、間接経費: 1,140千円) 2024年度: 4,940千円 (直接経費: 3,800千円、間接経費: 1,140千円) 2023年度: 9,100千円 (直接経費: 7,000千円、間接経費: 2,100千円)
キーワード	医療用語 / 診療記録 / 自然言語処理 / エンティティリンキング / 機械学習
研究開始時の研究の概要	診療テキストは自由記載されることが多いため、構造化データとするために自然言語処理を活用する必要がある。このような医療テキスト構造化の出口の一つは、テキストから患者に関する情報(エンティティ)を抽出し、これまでに整備されてきた医療用語集の用語に対応付けること(Entity Linking;EL)である。これにより、テキストに出現する患者の疾患や症状を名寄せして数え上げることで統計解析に耐えうるデータとなる。本研究は、ELを行なうための実践的な医療用語辞書を開発し、その性能評価を通して診療テキストを対象とするELの達成に必要なリソースと技術要件を明らかにする。
研究実績の概要	診療テキストは自由記載されることが多いため、構造化データとするために自然言語処理を活用する必要がある。このような医療テキスト構造化の出口の一つは、テキストから患者に関する情報(エンティティ)を抽出し、これまでに整備されてきた医療用語集の用語に対応付けること(EntityLinking;EL)である。これにより、テキストに出現する患者の疾患や症状を名寄せして数え上げることで統計解析に耐えうるデータとなる。本研究は、ELを行なうための実践的な医療用語辞書を開発し、その性能評価を通して診療テキストを対象とするELの達成に必要なリソースと技術要件を明らかとする。２０２３年度は以下の研究・開発課題を実施した。 (1)統合医療用語集:医療分野では、英語リソースも含めると数多くの用語集が整備されており、用語間の対応付けが取られているものも複数存在する。この既存の用語集用語の間の対応関係を利用し、一つの用語に対して、他の用語集において同義の関係にある用語を表形式に整理した用語集の開発に取り組んだ。 (2)アノテーション仕様とツール:実際の医療テキストに出現する用語を「統合医療用語集」の用語に対応付けて収載するために、医療テキストに対して、UMLSコードを対応付けるためのアノテーション仕様とツール（NLPアノテーションツール「brat」プラグイン）を開発し、アノテーション仕様は論文として投稿した。また、約360の公開可能な症例報告に対して、約60,000件の用語をUMLSコードに対応付けを実施した。 (3)アノテーションの再現手法:生成型言語モデルを利用してアノテーション(固有表現抽出+エンティティリンキング)を再現する手法の開発に着手した。特に、UMLSなどの専用のデータベースのコードに対応付けるための精度が十分ではないため、これを改善するための方法が課題であると認識した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由２０２３年度の研究・開発課題(1)-(3)について、(1)に関しては関連する研究が和文論文として掲載され、(2)に関して開発したアノテーション仕様に基づいて約60000件のアノテーションを実施し、得られた成果を英文論文として投稿した。(3)に関しては、昨今発展の著しい生成型言語モデルを活用しアノテーションを再現する手法の開発に着手した。これらより一定の成果が得られたと考え、概ね順調であると判断した。
今後の研究の推進方策	引き続き、前述の研究・開発課題(1)-(3)を実施する。特に、(3)の大規模生成型言語モデルによって、EntityLinking（EL）アノテーションの再現を精度良く行うことが可能となれば、それ自体がELのソリューションとなる。また、統合医学用語集に収載する用語を増やすことにも繋がり、より少ないコンピュータリソースで動作する形態素解析器による手法の精度も向上すると考えられる。そのため、本研究の学術的な興味である、ELの達成に必要なリソースと技術要件を明らかとすることに貢献すると考えている。

報告書

(1件)

2023 実績報告書

研究成果
(5件)

すべて 2024 2023 その他

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (2件) 備考 (1件)

[雑誌論文] Towards Structuring Clinical Texts: Joint Entity and Relation Extraction from Japanese Case Report Corpus2024
- 著者名/発表者名
  Shibata Daisaku, Shinohara Emiko, Shimamoto Kiminori, Kawazoe Yoshimasa
- 雑誌名
  
  Stud Health Technol Inform
  
  巻: 25;310 ページ: 559-563
- DOI
  10.3233/shti231027
- ISBN
  9781643684567, 9781643684574
- 関連する報告書
  2023 実績報告書
- 査読あり
[雑誌論文] UMLSからの同義語を追加した形態素解析辞書を使用したPhenotypingの性能評価2023
- 著者名/発表者名
  榎原芽美, 柴田大作, 篠原恵美子, 河添悦昌, 大江和彦
- 雑誌名
  
  医療情報学
  
  巻: 44(1) ページ: 21-28
- 関連する報告書
  2023 実績報告書
- 査読あり
[学会発表] アレルギー情報の標準化を目指すJ-FAGYアレルゲン用語集2023
- 著者名/発表者名
  河添悦昌, 永島里美, 大江和彦
- 学会等名
  第43回医療情報学連合大会
- 関連する報告書
  2023 実績報告書
[学会発表] UMLSからの同義語を追加した形態素解析辞書を使用したPhenotypingの性能評価2023
- 著者名/発表者名
  榎原芽美，柴田大作，篠原恵美子, 河添悦昌, 大江和彦
- 学会等名
  第27回日本医療情報学春季学術大会
- 関連する報告書
  2023 実績報告書
[備考] 症例報告コーパス（iCorpus）
- URL
  https://ai-health.m.u-tokyo.ac.jp/home/research/corpus
- 関連する報告書
  2023 実績報告書

医療用語のエンティティリンキングに向けた実践的医療用語辞書の開発

研究代表者

河添 悦昌 東京大学, 医学部附属病院, 特任准教授 (10621477)

18,980千円 (直接経費: 14,600千円、間接経費: 4,380千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Towards Structuring Clinical Texts: Joint Entity and Relation Extraction from Japanese Case Report Corpus2024

著者名/発表者名

雑誌名

DOI

ISBN

関連する報告書

[雑誌論文] UMLSからの同義語を追加した形態素解析辞書を使用したPhenotypingの性能評価2023

著者名/発表者名

雑誌名

関連する報告書

[学会発表] アレルギー情報の標準化を目指すJ-FAGYアレルゲン用語集2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] UMLSからの同義語を追加した形態素解析辞書を使用したPhenotypingの性能評価2023

著者名/発表者名

学会等名

関連する報告書

[備考] 症例報告コーパス（iCorpus）

URL

関連する報告書

河添悦昌東京大学, 医学部附属病院, 特任准教授 (10621477)