| Project/Area Number |
23K28182
|
| Project/Area Number (Other) |
23H03492 (2023)
|
| Research Category |
Grant-in-Aid for Scientific Research (B)
|
| Allocation Type | Multi-year Fund (2024) Single-year Grants (2023) |
| Section | 一般 |
| Review Section |
Basic Section 62010:Life, health and medical informatics-related
|
| Research Institution | The University of Tokyo |
Principal Investigator |
河添 悦昌 東京大学, 医学部附属病院, 特任准教授 (10621477)
|
| Co-Investigator(Kenkyū-buntansha) |
篠原 恵美子 東京大学, 医学部附属病院, 特任助教 (40582755)
荒牧 英治 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (70401073)
|
| Project Period (FY) |
2024-04-01 – 2026-03-31
|
| Project Status |
Granted (Fiscal Year 2024)
|
| Budget Amount *help |
¥18,980,000 (Direct Cost: ¥14,600,000、Indirect Cost: ¥4,380,000)
Fiscal Year 2025: ¥4,940,000 (Direct Cost: ¥3,800,000、Indirect Cost: ¥1,140,000)
Fiscal Year 2024: ¥4,940,000 (Direct Cost: ¥3,800,000、Indirect Cost: ¥1,140,000)
Fiscal Year 2023: ¥9,100,000 (Direct Cost: ¥7,000,000、Indirect Cost: ¥2,100,000)
|
| Keywords | 自然言語処理 / エンティティリンキング / 診療記録 / 医療用語 / 非連続スパン / 機械学習 |
| Outline of Research at the Start |
診療テキストは自由記載されることが多いため、構造化データとするために自然言語処理を活用する必要がある。このような医療テキスト構造化の出口の一つは、テキストから患者に関する情報(エンティティ)を抽出し、これまでに整備されてきた医療用語集の用語に対応付けること(Entity Linking;EL)である。これにより、テキストに出現する患者の疾患や症状を名寄せして数え上げることで統計解析に耐えうるデータとなる 。本研究は、ELを行なうための実践的な医療用語辞書を開発し、その性能評価を通して診療テキストを対象とするELの達成に必要なリソースと技術要件を明らかにする。
|
| Outline of Annual Research Achievements |
診療テキストを統計解析可能な構造化データにするため、固有表現抽出(NER)とエンティティリンキング(EL)を実現する医療用語辞書および技術要件を明らかにすることを目指し、2024年度に以下の三つの課題を実施した。 1) EL評価用データセット開発:詳細アノテーション済みコーパスに対して、UMLS概念コードを人手により付与した。症例報告366件に対しては47,313の文字列スパンに62,060のコードを、東大病院退院サマリ32件には11,960スパンに21,710コードを、同病院看護記録32件には2,703スパンに3,205コードを付与し、精緻なEL評価用リソースを構築した。 2) 非連続スパンのNERへの影響調査:従来のNERは連続スパンを前提とするが、非連続スパンとして表現される患者状態も存在する。UMLS付き詳細アノテーションを用い調査した結果、約18.6%の患者状態が非連続スパンで記述されており、特に身体部位や検査項目に関する情報が分断されやすいことが判明した。そのため、従来の前提では精度と網羅性に限界が生じることを定量的に示し、今後は非連続スパンを許容するNER手法の開発が必要であることを提言した。 3) DecoderモデルによるNER手法の開発:EncoderによるNERの精度は、学習用データの量に依存することから開発コストが高い。そこで、大規模言語モデル(LLM)を活用したDecoder型NERを検討した。Few-shot提示によるNERをベースラインとし、アノテーションガイドラインをプロンプトに追加する手法を複数の商用LLMで評価した。i2b2-2012/2014やMedTxt-CRといった英日混在コーパスで検証した結果、特にRecallおよびF1スコアが一貫して向上し、ガイドライン情報がfew-shot学習の一般化能力を効果的に強化することを確認した。
|
| Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究は、診療テキストから患者状態を抽出しUMLS概念へリンクする実践的基盤の確立を目指すものであり、2024年度の成果は計画通り順調に進んでいる。第一にEL評価用データセットでは、症例報告・退院サマリ・看護記録計430件に対し延べ8.7万件超のUMLSコードを付与し、大規模かつ多様な評価基盤を整備した。第二に、非連続スパンが抽出性能に及ぼす影響を定量化し、患者状態の 18.6%が従来のNERで取りこぼされるリスクを提示し、診療記録におけるNERとELに求められる技術要件を深堀りした。第三に、Decoder系LLMを用いた少量学習NERを開発し、プロンプトに注釈ガイドを追加することでi2b2・MedTxt各コーパスでRecallとF1を一貫して向上させ、アノテーションコストを抑えつつ高精度抽出を実証した。これらのことから、本研究は当初の目的に沿って順調に進捗していると言える。
|
| Strategy for Future Research Activity |
これまでの成果を発展し、EL評価用データセットを活用した医療用語辞書の実装と、デコーダモデル(LLM)を活用した非連続スパンに対応するNERの性能向上を目指す。また、医療用語辞書を活用したELをNERに続くパイプラインで行った際の性能評価を通して、診療テキストに対するNERとENの精度向上を目指し成果物を公開する。
|