Development of a Practical Medical Dictionary for Medical Term Entity Linking
Project/Area Number |
23K28182
|
Project/Area Number (Other) |
23H03492 (2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2023) |
Section | 一般 |
Review Section |
Basic Section 62010:Life, health and medical informatics-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
河添 悦昌 東京大学, 医学部附属病院, 特任准教授 (10621477)
|
Co-Investigator(Kenkyū-buntansha) |
篠原 恵美子 東京大学, 医学部附属病院, 特任助教 (40582755)
荒牧 英治 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (70401073)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥18,980,000 (Direct Cost: ¥14,600,000、Indirect Cost: ¥4,380,000)
Fiscal Year 2025: ¥4,940,000 (Direct Cost: ¥3,800,000、Indirect Cost: ¥1,140,000)
Fiscal Year 2024: ¥4,940,000 (Direct Cost: ¥3,800,000、Indirect Cost: ¥1,140,000)
Fiscal Year 2023: ¥9,100,000 (Direct Cost: ¥7,000,000、Indirect Cost: ¥2,100,000)
|
Keywords | 医療用語 / 診療記録 / 自然言語処理 / エンティティリンキング / 機械学習 |
Outline of Research at the Start |
診療テキストは自由記載されることが多いため、構造化データとするために自然言語処理を活用する必要がある。このような医療テキスト構造化の出口の一つは、テキストから患者に関する情報(エンティティ)を抽出し、これまでに整備されてきた医療用語集の用語に対応付けること(Entity Linking;EL)である。これにより、テキストに出現する患者の疾患や症状を名寄せして数え上げることで統計解析に耐えうるデータとなる 。本研究は、ELを行なうための実践的な医療用語辞書を開発し、その性能評価を通して診療テキストを対象とするELの達成に必要なリソースと技術要件を明らかにする。
|
Outline of Annual Research Achievements |
診療テキストは自由記載されることが多いため、構造化データとするために自然言語処理を活用する必要がある。このような医療テキスト構造化の出口の一つは、テキストから患者に関する情報(エンティティ)を抽出し、これまでに整備されてきた医療用語集の用語に対応付けること(EntityLinking;EL)である。これにより、テキストに出現する患者の疾患や症状を名寄せして数え上げることで統計解析に耐えうるデータとなる。本研究は、ELを行なうための実践的な医療用語辞書を開発し、その性能評価を通して診療テキストを対象とするELの達成に必要なリソースと技術要件を明らかとする。2023年度は以下の研究・開発課題を実施した。 (1)統合医療用語集:医療分野では、英語リソースも含めると数多くの用語集が整備されており、用語間の対応付けが取られているものも複数存在する。この既存の用語集用語の間の対応関係を利用し、一つの用語に対して、他の用語集において同義の関係にある用語を表形式に整理した用語集の開発に取り組んだ。 (2)アノテーション仕様とツール:実際の医療テキストに出現する用語を「統合医療用語集」の用語に対応付けて収載するために、医療テキストに対して、UMLSコードを対応付けるためのアノテーション仕様とツール(NLPアノテーションツール「brat」プラグイン)を開発し、アノテーション仕様は論文として投稿した。また、約360の公開可能な症例報告に対して、約60,000件の用語をUMLSコードに対応付けを実施した。 (3)アノテーションの再現手法:生成型言語モデルを利用してアノテーション(固有表現抽出+エンティティリンキング)を再現する手法の開発に着手した。特に、UMLSなどの専用のデータベースのコードに対応付けるための精度が十分ではないため、これを改善するための方法が課題であると認識した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2023年度の研究・開発課題(1)-(3)について、(1)に関しては関連する研究が和文論文として掲載され、(2)に関して開発したアノテーション仕様に基づいて約60000件のアノテーションを実施し、得られた成果を英文論文として投稿した。(3)に関しては、昨今発展の著しい生成型言語モデルを活用しアノテーションを再現する手法の開発に着手した。これらより一定の成果が得られたと考え、概ね順調であると判断した。
|
Strategy for Future Research Activity |
引き続き、前述の研究・開発課題(1)-(3)を実施する。特に、(3)の大規模生成型言語モデルによって、EntityLinking(EL)アノテーションの再現を精度良く行うことが可能となれば、それ自体がELのソリューションとなる。また、統合医学用語集に収載する用語を増やすことにも繋がり、より少ないコンピュータリソースで動作する形態素解析器による手法の精度も向上すると考えられる。そのため、本研究の学術的な興味である、ELの達成に必要なリソースと技術要件を明らかとすることに貢献すると考えている。
|
Report
(1 results)
Research Products
(5 results)