研究課題/領域番号 |
20H04279
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分62010:生命、健康および医療情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
河添 悦昌 東京大学, 医学部附属病院, 特任准教授 (10621477)
|
研究分担者 |
関 倫久 東京大学, 医学部附属病院, 助教 (30528873)
篠原 恵美子 東京大学, 医学部附属病院, 特任助教 (40582755)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
18,070千円 (直接経費: 13,900千円、間接経費: 4,170千円)
2022年度: 4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2021年度: 4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2020年度: 9,230千円 (直接経費: 7,100千円、間接経費: 2,130千円)
|
キーワード | 診療記録 / 遺伝性疾患 / 表現型 / 自然言語処理 / Phenotyping / Human Phenotype Ontology / Named Entity Recognition / Relation Extraction / 診療テキスト / 告示難病 |
研究開始時の研究の概要 |
遺伝性疾患は種類が多く頻度が低いことから、医師にとって未経験の疾患が多く存在するため、疾患の見落としが生じる可能性が高い。そのため、診療記録等のテキストから抽出した患者の表現型に関する情報と情報検索技術を活用して、候補となる原因遺伝子や遺伝性疾患を推定するための技術は重要なものとなる。本研究では、診療テキストから表現型を抽出する基盤技術の開発と、抽出された表現型から既存のアルゴリズムを利用して得られる遺伝性疾患のランキングの精度評価を行う。
|
研究成果の概要 |
指定難病151疾患362の症例報告テキストを収集し、70種の固有表現タグと35種の関係タグにより表現型をアノテートする基準を開発した。述べ数57,520件の表現型にアノテートを実施し、これら表現型を病名用語集(UMLS, HPO, MEDIS標準病名マスタ)の用語コードへの対応付けた。成果として、再配布の許諾が得られた179症例からなるコーパスを研究者らのHPで公開した。また、このアノテーションを再現する機械学習モデルを開発し精度評価を行った。固有表現抽出と関係抽出は比較的高い精度を示したが、表現型文字列をHPOコードに対応付ける精度は十分ではなく、今後の課題として残された。
|
研究成果の学術的意義や社会的意義 |
本研究は自然言語処理の基盤技術として、表現型(患者の状態)を抽出するための詳細なアノテーション基準を開発し、この基準でアノテートされた高品質なコーパスを構築・公開した。診療テキストを入力として、計算機がこのアノテーションを再現することで、患者の表現型(例えば、どの部位に症状が生じているのか、その症状は持続しているのか改善しているのかなど)を自動で抽出し集計できるようになる。機械学習による表現型の抽出は良好な性能を示したものの、抽出された表現型を医学用語集の用語に対応付けるエンティティリンキングの性能は十分ではないため、この性能を向上するための手法を開発することが今後の課題としてあげられた。
|