研究実績の概要 |
1) 指定難病151疾患362の症例報告を収集し、70種の固有表現タグと35種の関係タグによって表現型をアノテートする基準を開発した。この362の症例報告と、指定難病16疾患32症例の退院サマリに対して開発した基準によるアノテーションを実施した結果、アノテートされた表現型の延べ数は57,520件となった(平均145件/文書)。また、これら表現型を3種類の病名用語集、UMLS(約890万用語), HPO(約16,000用語), MEDIS標準病名マスタ(約27,000用語)の用語コードに人手により対応付けた。結果、対応付けられた表現型の延べ数は、UMLSが46,690件(81%)、HPOが10,352件(18%)、標準病名が6,839件(12%)となった。テキスト再配布の許諾を得た179症例のコーパスをHPで公開した。 2) 公開した179症例報告を利用して、BERTをベースとする固有表現抽出(NER)と関係抽出(RE)を行う機械学習モデルを開発した。NERの精度は0.912(Micro-F1)と0.601(Macro-F1)、REの精度は0.759と0.611であった。このモデルを退院サマリに適用すると、精度が5%程度低下した。また、固有表現と関係の組みで同定される表現型をHPOコードに対応付ける辞書ベースの手法を開発し0.234(Micro-F1)の精度でHPOコードを同定できた。 3) 指定難病16疾患32症例の退院サマリにアノテートされた表現型のHPOコードを利用して、表現型から類似疾患をランキングする既存アルゴリズム(PubCaseFinder)の性能を評価した。16疾患の平均Mean Reciprocal RankはORPHA病名が0.0557、OMIM病名が0.0283であり、これはそれぞれ平均して18位と35位に退院サマリの主病名がランキングされたことを意味する。
|