e-Phenotyping from clinical text for hereditary disorders and feasibility evaluation for clinical applications
Project/Area Number |
20H04279
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 62010:Life, health and medical informatics-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
|
Co-Investigator(Kenkyū-buntansha) |
関 倫久 東京大学, 医学部附属病院, 助教 (30528873)
篠原 恵美子 東京大学, 医学部附属病院, 特任助教 (40582755)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥18,070,000 (Direct Cost: ¥13,900,000、Indirect Cost: ¥4,170,000)
Fiscal Year 2022: ¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2021: ¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2020: ¥9,230,000 (Direct Cost: ¥7,100,000、Indirect Cost: ¥2,130,000)
|
Keywords | 診療記録 / 遺伝性疾患 / 表現型 / 自然言語処理 / Phenotyping / Human Phenotype Ontology / Named Entity Recognition / Relation Extraction / 診療テキスト / 告示難病 |
Outline of Research at the Start |
遺伝性疾患は種類が多く頻度が低いことから、医師にとって未経験の疾患が多く存在するため、疾患の見落としが生じる可能性が高い。そのため、診療記録等のテキストから抽出した患者の表現型に関する情報と情報検索技術を活用して、候補となる原因遺伝子や遺伝性疾患を推定するための技術は重要なものとなる。本研究では、診療テキストから表現型を抽出する基盤技術の開発と、抽出された表現型から既存のアルゴリズムを利用して得られる遺伝性疾患のランキングの精度評価を行う。
|
Outline of Final Research Achievements |
We collected case report texts for 362 cases of 151 designated intractable diseases and developed criteria for annotating phenotypes using 70 type of named entity tag and 35 type of relationship tags. We annotated 57,520 phenotypes and mapped these phenotypes to term codes in the disease name glossaries (UMLS, HPO, MEDIS standard disease name master). As a result, a corpus of 179 cases, for which permission for redistribution was obtained, was published on the researchers' website. A machine learning model was also developed to reproduce the annotations, and its accuracy was evaluated. Although the accuracy of unique expression extraction and relationship extraction was relatively high, the accuracy of mapping phenotype strings to HPO codes was insufficient and remains as future work.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究は自然言語処理の基盤技術として、表現型(患者の状態)を抽出するための詳細なアノテーション基準を開発し、この基準でアノテートされた高品質なコーパスを構築・公開した。診療テキストを入力として、計算機がこのアノテーションを再現することで、患者の表現型(例えば、どの部位に症状が生じているのか、その症状は持続しているのか改善しているのかなど)を自動で抽出し集計できるようになる。機械学習による表現型の抽出は良好な性能を示したものの、抽出された表現型を医学用語集の用語に対応付けるエンティティリンキングの性能は十分ではないため、この性能を向上するための手法を開発することが今後の課題としてあげられた。
|
Report
(4 results)
Research Products
(16 results)