2022 Fiscal Year Annual Research Report
e-Phenotyping from clinical text for hereditary disorders and feasibility evaluation for clinical applications
Project/Area Number |
20H04279
|
Research Institution | The University of Tokyo |
Principal Investigator |
河添 悦昌 東京大学, 医学部附属病院, 特任准教授 (10621477)
|
Co-Investigator(Kenkyū-buntansha) |
関 倫久 東京大学, 医学部附属病院, 助教 (30528873)
篠原 恵美子 東京大学, 医学部附属病院, 特任助教 (40582755)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 診療記録 / 遺伝性疾患 / 表現型 / 自然言語処理 / Phenotyping / Human Phenotype Ontology / Named Entity Recognition / Relation Extraction |
Outline of Annual Research Achievements |
1) 指定難病151疾患362の症例報告を収集し、70種の固有表現タグと35種の関係タグによって表現型をアノテートする基準を開発した。この362の症例報告と、指定難病16疾患32症例の退院サマリに対して開発した基準によるアノテーションを実施した結果、アノテートされた表現型の延べ数は57,520件となった(平均145件/文書)。また、これら表現型を3種類の病名用語集、UMLS(約890万用語), HPO(約16,000用語), MEDIS標準病名マスタ(約27,000用語)の用語コードに人手により対応付けた。結果、対応付けられた表現型の延べ数は、UMLSが46,690件(81%)、HPOが10,352件(18%)、標準病名が6,839件(12%)となった。テキスト再配布の許諾を得た179症例のコーパスをHPで公開した。 2) 公開した179症例報告を利用して、BERTをベースとする固有表現抽出(NER)と関係抽出(RE)を行う機械学習モデルを開発した。NERの精度は0.912(Micro-F1)と0.601(Macro-F1)、REの精度は0.759と0.611であった。このモデルを退院サマリに適用すると、精度が5%程度低下した。また、固有表現と関係の組みで同定される表現型をHPOコードに対応付ける辞書ベースの手法を開発し0.234(Micro-F1)の精度でHPOコードを同定できた。 3) 指定難病16疾患32症例の退院サマリにアノテートされた表現型のHPOコードを利用して、表現型から類似疾患をランキングする既存アルゴリズム(PubCaseFinder)の性能を評価した。16疾患の平均Mean Reciprocal RankはORPHA病名が0.0557、OMIM病名が0.0283であり、これはそれぞれ平均して18位と35位に退院サマリの主病名がランキングされたことを意味する。
|
Research Progress Status |
令和4年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和4年度が最終年度であるため、記入しない。
|
Research Products
(10 results)