2021 Fiscal Year Annual Research Report
e-Phenotyping from clinical text for hereditary disorders and feasibility evaluation for clinical applications
Project/Area Number |
20H04279
|
Research Institution | The University of Tokyo |
Principal Investigator |
河添 悦昌 東京大学, 医学部附属病院, 特任准教授 (10621477)
|
Co-Investigator(Kenkyū-buntansha) |
関 倫久 東京大学, 医学部附属病院, 助教 (30528873)
篠原 恵美子 東京大学, 医学部附属病院, 特任助教 (40582755)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 診療記録 / 遺伝性疾患 / 表現型 / 自然言語処理 / Phenotyping / Human Phenotype Ontology / Named Entity Recognition / Relation Extraction |
Outline of Annual Research Achievements |
本研究は以下を研究目的とする。1) 表現型を抽出する基盤技術の開発:日本語で記録された診療テキストから表現型に関する情報を自然言語処理によって抽出し、既存の医学用語集に対応付けるための基盤技術となる症例報告テキストコーパスを開発する。2)遺伝性疾患のランキング精度評価:開発した基盤技術を用いて、症例報告や退院サマリから表現型を抽出し、既存アルゴリズムを用いた疾患のランキング精度を評価する。これまでに、厚生労働省の指定難病333疾患のうち151疾患について計362の症例報告テキストを収集し、約50種の固有表現タグと35の関係タグによって、表現型をアノテーションするための基準を開発した。この基準は、言語学的な制約よりもむしろ、医療の観点に立脚した情報モデルに基づくものであり、網羅性と一貫性を重視するように設計した。また、この基準によるアノテーションを実施し、362症例報告からなるコーパスと、固有表現抽出と関係抽出によってアノテーションを再現する機械学習モデルを開発した。 本年度は、コーパスの質の改善を進めるとともに、テキスト再配布の許諾が得られた179症例報告(183症例)を含むコーパスをiCorpus(Corpus of clinical case reports of intractable diseases)と名付け研究者のHPで公開した。また、特定の固有表現タグと関係の組みで同定される表現型に対して、3種類の異なる病名用語集への対応付けの実施と、用語を自動でコーディングする手法の開発を進めた。更に、実診療テキストに対する適応性を評価するために、告示難病32症例の退院サマリに対しても同様のアノテーションを進めた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
最も重要な成果物である症例報告コーパスの開発が進んでいることをもって、おおむね順調に進捗しているとした。本年度は、事前学習済みの汎用言語モデルをベースとする固有表現抽出と関係抽出を実行する機械学習モデルの精度を向上させるとともに、これを用いた誤り分析とアノテーションの修正を繰り返すことでコーパスの質を改善し、テキスト再配布の許諾が得られた179症例報告を含むコーパスを研究者らのHPで公開した。また、特定の固有表現タグと関係の組みがアノテーション付けられた約20,000の表現に対して、3種類の病名用語集(Unified Medical Language System(UMLS), Human Phenotype Ontology(HPO), MEDIS標準病名マスタ)の用語への対応付けと、用語を自動でコーディングする手法の開発を進めた。更に、告示難病32症例の退院サマリに対しても同様のアノテーションを実施することで、実診療テキストに対しても同様の基準でアノテーションが適用できることを確認した。
|
Strategy for Future Research Activity |
引き続き3種類の病名用語集へのコーディングを進めるとともに、これを自動でコーディングするための技術開発を行う。後者に関し、病名用語集に含まれる病名の種類は多い(例えば、MEDIS標準病名マスタであれば約27000種)ため、開発したコーパスにこれら全ての病名が含まれるわけではない。そのため、外部リソース(用語集や症例テキスト)やルールベースの手法を組み合わせた用語のコーディング手法の開発を進める。また、実際の退院サマリに対しても同様のアノテーションを進め、固有表現抽出、関係抽出、用語コーディングを一連のタスクとして行った場合の性能を評価する。最終的には、退院サマリを対象として、自動で抽出されるHPOのコードを入力とし、既存アルゴリズムから出力される候補疾患がどの程度正しいかを評価する。
|
Research Products
(5 results)