研究課題/領域番号 |
23K28182
|
補助金の研究課題番号 |
23H03492 (2023)
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 (2024) 補助金 (2023) |
応募区分 | 一般 |
審査区分 |
小区分62010:生命、健康および医療情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
河添 悦昌 東京大学, 医学部附属病院, 特任准教授 (10621477)
|
研究分担者 |
篠原 恵美子 東京大学, 医学部附属病院, 特任助教 (40582755)
荒牧 英治 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (70401073)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
18,980千円 (直接経費: 14,600千円、間接経費: 4,380千円)
2025年度: 4,940千円 (直接経費: 3,800千円、間接経費: 1,140千円)
2024年度: 4,940千円 (直接経費: 3,800千円、間接経費: 1,140千円)
2023年度: 9,100千円 (直接経費: 7,000千円、間接経費: 2,100千円)
|
キーワード | 医療用語 / 診療記録 / 自然言語処理 / エンティティリンキング / 機械学習 |
研究開始時の研究の概要 |
診療テキストは自由記載されることが多いため、構造化データとするために自然言語処理を活用する必要がある。このような医療テキスト構造化の出口の一つは、テキストから患者に関する情報(エンティティ)を抽出し、これまでに整備されてきた医療用語集の用語に対応付けること(Entity Linking;EL)である。これにより、テキストに出現する患者の疾患や症状を名寄せして数え上げることで統計解析に耐えうるデータとなる 。本研究は、ELを行なうための実践的な医療用語辞書を開発し、その性能評価を通して診療テキストを対象とするELの達成に必要なリソースと技術要件を明らかにする。
|
研究実績の概要 |
診療テキストは自由記載されることが多いため、構造化データとするために自然言語処理を活用する必要がある。このような医療テキスト構造化の出口の一つは、テキストから患者に関する情報(エンティティ)を抽出し、これまでに整備されてきた医療用語集の用語に対応付けること(EntityLinking;EL)である。これにより、テキストに出現する患者の疾患や症状を名寄せして数え上げることで統計解析に耐えうるデータとなる。本研究は、ELを行なうための実践的な医療用語辞書を開発し、その性能評価を通して診療テキストを対象とするELの達成に必要なリソースと技術要件を明らかとする。2023年度は以下の研究・開発課題を実施した。 (1)統合医療用語集:医療分野では、英語リソースも含めると数多くの用語集が整備されており、用語間の対応付けが取られているものも複数存在する。この既存の用語集用語の間の対応関係を利用し、一つの用語に対して、他の用語集において同義の関係にある用語を表形式に整理した用語集の開発に取り組んだ。 (2)アノテーション仕様とツール:実際の医療テキストに出現する用語を「統合医療用語集」の用語に対応付けて収載するために、医療テキストに対して、UMLSコードを対応付けるためのアノテーション仕様とツール(NLPアノテーションツール「brat」プラグイン)を開発し、アノテーション仕様は論文として投稿した。また、約360の公開可能な症例報告に対して、約60,000件の用語をUMLSコードに対応付けを実施した。 (3)アノテーションの再現手法:生成型言語モデルを利用してアノテーション(固有表現抽出+エンティティリンキング)を再現する手法の開発に着手した。特に、UMLSなどの専用のデータベースのコードに対応付けるための精度が十分ではないため、これを改善するための方法が課題であると認識した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2023年度の研究・開発課題(1)-(3)について、(1)に関しては関連する研究が和文論文として掲載され、(2)に関して開発したアノテーション仕様に基づいて約60000件のアノテーションを実施し、得られた成果を英文論文として投稿した。(3)に関しては、昨今発展の著しい生成型言語モデルを活用しアノテーションを再現する手法の開発に着手した。これらより一定の成果が得られたと考え、概ね順調であると判断した。
|
今後の研究の推進方策 |
引き続き、前述の研究・開発課題(1)-(3)を実施する。特に、(3)の大規模生成型言語モデルによって、EntityLinking(EL)アノテーションの再現を精度良く行うことが可能となれば、それ自体がELのソリューションとなる。また、統合医学用語集に収載する用語を増やすことにも繋がり、より少ないコンピュータリソースで動作する形態素解析器による手法の精度も向上すると考えられる。そのため、本研究の学術的な興味である、ELの達成に必要なリソースと技術要件を明らかとすることに貢献すると考えている。
|