遺伝性疾患のスクリーニングに向けた診療記録からの表現型の抽出と臨床応用評価

研究課題

研究課題/領域番号	20H04279
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
審査区分	小区分62010:生命、健康および医療情報学関連
研究機関	東京大学
研究代表者	河添悦昌東京大学, 医学部附属病院, 特任准教授 (10621477)
研究分担者	関倫久東京大学, 医学部附属病院, 助教 (30528873) 篠原恵美子東京大学, 医学部附属病院, 特任助教 (40582755)
研究期間 (年度)	2020-04-01 – 2023-03-31
研究課題ステータス	完了 (2022年度)
配分額 *注記	18,070千円 (直接経費: 13,900千円、間接経費: 4,170千円) 2022年度: 4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円) 2021年度: 4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円) 2020年度: 9,230千円 (直接経費: 7,100千円、間接経費: 2,130千円)
キーワード	診療記録 / 遺伝性疾患 / 表現型 / 自然言語処理 / Phenotyping / Human Phenotype Ontology / Named Entity Recognition / Relation Extraction / 診療テキスト / 告示難病
研究開始時の研究の概要	遺伝性疾患は種類が多く頻度が低いことから、医師にとって未経験の疾患が多く存在するため、疾患の見落としが生じる可能性が高い。そのため、診療記録等のテキストから抽出した患者の表現型に関する情報と情報検索技術を活用して、候補となる原因遺伝子や遺伝性疾患を推定するための技術は重要なものとなる。本研究では、診療テキストから表現型を抽出する基盤技術の開発と、抽出された表現型から既存のアルゴリズムを利用して得られる遺伝性疾患のランキングの精度評価を行う。
研究成果の概要	指定難病151疾患362の症例報告テキストを収集し、70種の固有表現タグと35種の関係タグにより表現型をアノテートする基準を開発した。述べ数57,520件の表現型にアノテートを実施し、これら表現型を病名用語集（UMLS, HPO, MEDIS標準病名マスタ）の用語コードへの対応付けた。成果として、再配布の許諾が得られた179症例からなるコーパスを研究者らのHPで公開した。また、このアノテーションを再現する機械学習モデルを開発し精度評価を行った。固有表現抽出と関係抽出は比較的高い精度を示したが、表現型文字列をHPOコードに対応付ける精度は十分ではなく、今後の課題として残された。
研究成果の学術的意義や社会的意義	本研究は自然言語処理の基盤技術として、表現型（患者の状態）を抽出するための詳細なアノテーション基準を開発し、この基準でアノテートされた高品質なコーパスを構築・公開した。診療テキストを入力として、計算機がこのアノテーションを再現することで、患者の表現型（例えば、どの部位に症状が生じているのか、その症状は持続しているのか改善しているのかなど）を自動で抽出し集計できるようになる。機械学習による表現型の抽出は良好な性能を示したものの、抽出された表現型を医学用語集の用語に対応付けるエンティティリンキングの性能は十分ではないため、この性能を向上するための手法を開発することが今後の課題としてあげられた。

報告書

(4件)

研究成果
(16件)

すべて 2023 2022 2021 その他

すべて雑誌論文 (2件) (うち査読あり 2件、オープンアクセス 1件) 学会発表 (10件) (うち国際学会 1件、招待講演 1件) 図書 (1件) 備考 (3件)

[雑誌論文] Development of comprehensive annotation criteria for patients’ states from clinical texts2022
- 著者名/発表者名
  Shinohara Emiko、Shibata Daisaku、Kawazoe Yoshimasa
- 雑誌名
  
  Journal of Biomedical Informatics
  
  巻: 134 ページ: 104200-104200
- DOI
  10.1016/j.jbi.2022.104200
- 関連する報告書
  2022 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] 症例報告に対する網羅的な所見アノテーションのためのアノテーション基準の構築2022
- 著者名/発表者名
  篠原恵美子, 河添悦昌, 柴田大作, 嶋本公徳, 関倫久
- 雑誌名
  
  医療情報学
  
  巻: 42(1) ページ: 3-15
- 関連する報告書
  2022 実績報告書
- 査読あり
[学会発表] 医療デジタルツインを加速する自然言語処理2023
- 著者名/発表者名
  河添悦昌
- 学会等名
  第31回日本医学会総会 U40委員会企画 AIは医師を置き換えるか？～医療AIの未来予想図～
- 関連する報告書
  2022 実績報告書
- 招待講演
[学会発表] UMLSからの同義語を追加した形態素解析辞書を使用したPhenotypingの性能評価2023
- 著者名/発表者名
  榎原芽美, 柴田大作, 篠原恵美子, 河添悦昌, 大江和彦
- 学会等名
  第27回日本医療情報学会春季学術大会
- 関連する報告書
  2022 実績報告書
[学会発表] Towards structuring clinical texts: Joint entity and relation extraction from Japanese case report corpus2023
- 著者名/発表者名
  Daisaku Shibata, Emiko Shinohara, Kiminori Shimamoto and Yoshimasa Kawazoe
- 学会等名
  MedInfo 2023, the 19th world congress on medical and health informatics
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] 患者状態表現の病名交換コードへのマッピング2022
- 著者名/発表者名
  柴田大作, 河添悦昌, 篠原恵美子, 嶋本公徳
- 学会等名
  第42回医療情報連合大会
- 関連する報告書
  2022 実績報告書
[学会発表] アレルギー情報の標準化を目指すJFAGYアレルゲン用語集とアレルゲンコードシステム2022
- 著者名/発表者名
  河添悦昌, 永島里美, 大江和彦
- 学会等名
  第42回医療情報連合大会
- 関連する報告書
  2022 実績報告書
[学会発表] 希少・難治性疾患の症例報告テキストコーパスと情報抽出精度の評価2022
- 著者名/発表者名
  柴田大作, 河添悦昌, 篠原恵美子, 嶋本公徳
- 学会等名
  第36回人工知能学会全国大会
- 関連する報告書
  2022 実績報告書 2021 実績報告書
[学会発表] 詳細なアノテーション基準に基づく症例報告コーパスからの固有表現及び関係の抽出精度2021
- 著者名/発表者名
  柴田大作，河添悦昌，篠原恵美子，嶋本公徳
- 学会等名
  第41回医療情報学連合大会
- 関連する報告書
  2021 実績報告書
[学会発表] 患者状態に関する網羅的なアノテーション基準とFHIR Conditionリソースとのマッピングの検討2021
- 著者名/発表者名
  河添悦昌，篠原恵美子
- 学会等名
  第41回医療情報学連合大会
- 関連する報告書
  2021 実績報告書
[学会発表] 希少・難治性疾患を対象とした症例報告テキストコーパスの構築2021
- 著者名/発表者名
  河添悦昌，篠原恵美子
- 学会等名
  第41回医療情報学連合大会
- 関連する報告書
  2021 実績報告書
[学会発表] 医療テキストに対する網羅的な所見アノテーションのためのアノテーション基準の構築2021
- 著者名/発表者名
  篠原恵美子, 河添悦昌, 柴田大作, 嶋本公徳, 関倫久
- 学会等名
  第25回日本医療情報学会春季学術大会シンポジウム
- 関連する報告書
  2020 実績報告書
[図書] 医学のあゆみ283巻2号2022
- 著者名/発表者名
  河添悦昌, 篠原恵美子
- 総ページ数
  6
- 出版者
  医歯薬出版
- 関連する報告書
  2022 実績報告書
[備考] 症例報告コーパス(iCorpus)
- URL
  https://ai-health.m.u-tokyo.ac.jp/home/research/corpus
- 関連する報告書
  2022 実績報告書
[備考] 症例報告コーパス（iCorpus）
- URL
  https://ai-health.m.u-tokyo.ac.jp/home/research/corpus
- 関連する報告書
  2021 実績報告書
[備考] 医療AI開発学講座 - 症例報告コーパス
- URL
  https://ai-health.m.u-tokyo.ac.jp/corpus
- 関連する報告書
  2020 実績報告書

遺伝性疾患のスクリーニングに向けた診療記録からの表現型の抽出と臨床応用評価

研究代表者

河添 悦昌 東京大学, 医学部附属病院, 特任准教授 (10621477)

18,070千円 (直接経費: 13,900千円、間接経費: 4,170千円)

報告書

研究成果

[雑誌論文] Development of comprehensive annotation criteria for patients’ states from clinical texts2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] 症例報告に対する網羅的な所見アノテーションのためのアノテーション基準の構築2022

著者名/発表者名

雑誌名

関連する報告書

[学会発表] 医療デジタルツインを加速する自然言語処理2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] UMLSからの同義語を追加した形態素解析辞書を使用したPhenotypingの性能評価2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Towards structuring clinical texts: Joint entity and relation extraction from Japanese case report corpus2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 患者状態表現の病名交換コードへのマッピング2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] アレルギー情報の標準化を目指すJFAGYアレルゲン用語集とアレルゲンコードシステム2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 希少・難治性疾患の症例報告テキストコーパスと情報抽出精度の評価2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 詳細なアノテーション基準に基づく症例報告コーパスからの固有表現及び関係の抽出精度2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 患者状態に関する網羅的なアノテーション基準とFHIR Conditionリソースとのマッピングの検討2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 希少・難治性疾患を対象とした症例報告テキストコーパスの構築2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 医療テキストに対する網羅的な所見アノテーションのためのアノテーション基準の構築2021

著者名/発表者名

学会等名

関連する報告書

[図書] 医学のあゆみ283巻2号2022

著者名/発表者名

総ページ数

出版者

関連する報告書

[備考] 症例報告コーパス(iCorpus)

URL

関連する報告書

[備考] 症例報告コーパス（iCorpus）

URL

関連する報告書

[備考] 医療AI開発学講座 - 症例報告コーパス

URL

関連する報告書

河添悦昌東京大学, 医学部附属病院, 特任准教授 (10621477)