• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Annual Research Report

e-Phenotyping from clinical text for hereditary disorders and feasibility evaluation for clinical applications

Research Project

Project/Area Number 20H04279
Research InstitutionThe University of Tokyo

Principal Investigator

河添 悦昌  東京大学, 医学部附属病院, 特任准教授 (10621477)

Co-Investigator(Kenkyū-buntansha) 関 倫久  東京大学, 医学部附属病院, 助教 (30528873)
篠原 恵美子  東京大学, 医学部附属病院, 特任助教 (40582755)
Project Period (FY) 2020-04-01 – 2023-03-31
Keywords診療記録 / 遺伝性疾患 / 表現型 / 自然言語処理 / Phenotyping / Human Phenotype Ontology / Named Entity Recognition / Relation Extraction
Outline of Annual Research Achievements

1) 指定難病151疾患362の症例報告を収集し、70種の固有表現タグと35種の関係タグによって表現型をアノテートする基準を開発した。この362の症例報告と、指定難病16疾患32症例の退院サマリに対して開発した基準によるアノテーションを実施した結果、アノテートされた表現型の延べ数は57,520件となった(平均145件/文書)。また、これら表現型を3種類の病名用語集、UMLS(約890万用語), HPO(約16,000用語), MEDIS標準病名マスタ(約27,000用語)の用語コードに人手により対応付けた。結果、対応付けられた表現型の延べ数は、UMLSが46,690件(81%)、HPOが10,352件(18%)、標準病名が6,839件(12%)となった。テキスト再配布の許諾を得た179症例のコーパスをHPで公開した。
2) 公開した179症例報告を利用して、BERTをベースとする固有表現抽出(NER)と関係抽出(RE)を行う機械学習モデルを開発した。NERの精度は0.912(Micro-F1)と0.601(Macro-F1)、REの精度は0.759と0.611であった。このモデルを退院サマリに適用すると、精度が5%程度低下した。また、固有表現と関係の組みで同定される表現型をHPOコードに対応付ける辞書ベースの手法を開発し0.234(Micro-F1)の精度でHPOコードを同定できた。
3) 指定難病16疾患32症例の退院サマリにアノテートされた表現型のHPOコードを利用して、表現型から類似疾患をランキングする既存アルゴリズム(PubCaseFinder)の性能を評価した。16疾患の平均Mean Reciprocal RankはORPHA病名が0.0557、OMIM病名が0.0283であり、これはそれぞれ平均して18位と35位に退院サマリの主病名がランキングされたことを意味する。

Research Progress Status

令和4年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

令和4年度が最終年度であるため、記入しない。

  • Research Products

    (10 results)

All 2023 2022 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results,  Open Access: 1 results) Presentation (6 results) (of which Int'l Joint Research: 1 results,  Invited: 1 results) Book (1 results) Remarks (1 results)

  • [Journal Article] Development of comprehensive annotation criteria for patients’ states from clinical texts2022

    • Author(s)
      Shinohara Emiko、Shibata Daisaku、Kawazoe Yoshimasa
    • Journal Title

      Journal of Biomedical Informatics

      Volume: 134 Pages: 104200~104200

    • DOI

      10.1016/j.jbi.2022.104200

    • Peer Reviewed / Open Access
  • [Journal Article] 症例報告に対する網羅的な所見アノテーションのためのアノテーション基準の構築2022

    • Author(s)
      篠原 恵美子, 河添 悦昌, 柴田 大作, 嶋本 公徳, 関 倫久
    • Journal Title

      医療情報学

      Volume: 42(1) Pages: 3~15

    • Peer Reviewed
  • [Presentation] 医療デジタルツインを加速する自然言語処理2023

    • Author(s)
      河添 悦昌
    • Organizer
      第31回日本医学会総会 U40委員会企画 AIは医師を置き換えるか? ~医療AIの未来予想図~
    • Invited
  • [Presentation] UMLSからの同義語を追加した形態素解析辞書を使用したPhenotypingの性能評価2023

    • Author(s)
      榎原 芽美, 柴田 大作, 篠原 恵美子, 河添 悦昌, 大江 和彦
    • Organizer
      第27回日本医療情報学会春季学術大会
  • [Presentation] Towards structuring clinical texts: Joint entity and relation extraction from Japanese case report corpus2023

    • Author(s)
      Daisaku Shibata, Emiko Shinohara, Kiminori Shimamoto and Yoshimasa Kawazoe
    • Organizer
      MedInfo 2023, the 19th world congress on medical and health informatics
    • Int'l Joint Research
  • [Presentation] 患者状態表現の病名交換コードへのマッピング2022

    • Author(s)
      柴田大作, 河添悦昌, 篠原恵美子, 嶋本公徳
    • Organizer
      第42回医療情報連合大会
  • [Presentation] アレルギー情報の標準化を目指すJFAGYアレルゲン用語集とアレルゲンコードシステム2022

    • Author(s)
      河添 悦昌, 永島 里美, 大江 和彦
    • Organizer
      第42回医療情報連合大会
  • [Presentation] 希少・難治性疾患の症例報告テキストコーパスと情報抽出精度の評価2022

    • Author(s)
      柴田 大作, 河添 悦昌, 篠原 恵美子, 嶋本 公徳
    • Organizer
      第36回人工知能学会全国大会
  • [Book] 医学のあゆみ283巻2号2022

    • Author(s)
      河添 悦昌, 篠原 恵美子
    • Total Pages
      6
    • Publisher
      医歯薬出版
  • [Remarks] 症例報告コーパス(iCorpus)

    • URL

      https://ai-health.m.u-tokyo.ac.jp/home/research/corpus

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi