2020 Fiscal Year Annual Research Report

e-Phenotyping from clinical text for hereditary disorders and feasibility evaluation for clinical applications

Research Project

Project/Area Number	20H04279
Research Institution	The University of Tokyo
Principal Investigator	河添悦昌東京大学, 医学部附属病院, 特任准教授 (10621477)
Co-Investigator(Kenkyū-buntansha)	関倫久東京大学, 医学部附属病院, 助教 (30528873) 篠原恵美子東京大学, 医学部附属病院, 特任助教 (40582755)
Project Period (FY)	2020-04-01 – 2023-03-31
Keywords	診療テキスト / 遺伝性疾患 / 告示難病 / 自然言語処理 / Human Phenotype Ontology / Named Entity Recognition / Relation Extraction
Outline of Annual Research Achievements	本研究は、日本語診療テキストから病名や症状、所見などの表現型に関する情報を網羅的に抽出するための基盤技術を開発する。また、開発した技術と既存アルゴリズムを応用し、実際の退院サマリを対象とした遺伝性疾患のランキング精度を評価する。本年度は、各臨床医学系学会の症例報告テキストとアノテーションデータからなるテキストコーパスの開発を進め、性能評価を行った。また、開発したコーパスを公開できるよう、著作権者への許諾手続きを取った。 1) 症例報告コーパスの開発と公開。告示指定難病を対象にWebで公開される症例報告を収集しテキスト化を行った。テキスト中の表現型を同定するタスクを、自然言語処理における固有表現抽出、関係抽出、用語集へのコーディングの一連のタスクとして定式化し、開発したアノテーション基準に従い症例報告テキストへの網羅的なアノテーションを行った。結果、告示難病333疾患のうち151疾患について計362症例報告からなるコーパスを開発した。現時点で、固有表現タグの種類は47（述べ固有表現数 118,261）、関係の種類数は34（延べ関係数 115,289）となった。このうち、テキスト再配布の許諾が得られた約180の症例報告についてコーパスの公開を行う予定である。 2) 性能評価とコーパスの改善。本コーパスを利用しテキストから表現型を同定するためには、固有表現抽出、関係抽出、用語集コーディングの３種類のタスクを実行する必要がある。本年度は、固有表現抽出と関係抽出とを同時に行う機械学習モデルを、診療テキストで事前学習済みの言語モデル（BERT: Bidirectional Encoder Representations from Transformers)をベースとして開発し性能評価を行った。誤り分析およびアノテーションの修正を繰り返し行うことで、コーパスの質とモデルの性能の改善を進めている。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本研究の目的の１つは、テキスト中の表現型を網羅的に抽出するための基盤技術を開発することであるが、その最も重要な構成要素である症例報告コーパスの開発が進んでいることをもって、順調に進捗しているとした。本症例報告コーパスは難病・遺伝性疾患を対象としており、これら疾患は診療科や臓器を横断するものであることから、幅広い症状や所見、医療行為が含まれる点が特徴である。また、アノテーション基準については、言語学的な制約よりもむしろ、医療上の観点に立脚した情報モデルに基づいて、網羅性・一貫性・汎用性を有するコーパスとなるように設計した。症例報告テキスト（362症例）へのアノテーション実施を通して、整合性をもってこれを行えていることから、基準を大きく変更することなく、コーパスの拡充を行えるものと考えている。
Strategy for Future Research Activity	症例報告コーパスの開発に関する課題として、症状・所見などの固有表現を用語集にコーディングすることが人手であっても難しいことがあげられ、本年度はこの課題に取り組む。このコーディングを正確に行うことができれば、難病・遺伝性疾患の候補を提示する既存のアルゴリズムを利用して、疾患のランキングの精度を評価することが可能となる。一方で、本コーパスから表現型を自動で同定する技術について、固有表現抽出は高い精度で行えるものの、関係抽出とコーディングまでを含めたタスクの難易度は高いと予想されるため、さらなる技術改良が必要である。本症例コーパスを一般に公開し利用してもらうことで、これらのタスクを解くための技術促進とともに、医療分野の自然言語処理技術の向上の一助となることが期待される。
Remarks	症例報告コーパスのコンテンツ公開は６月を予定している

Research Products
(2 results)

All Presentation (1 results) Remarks (1 results)

[Presentation] 医療テキストに対する網羅的な所見アノテーションのためのアノテーション基準の構築2021
- Author(s)
  篠原恵美子, 河添悦昌, 柴田大作, 嶋本公徳, 関倫久
- Organizer
  第25回日本医療情報学会春季学術大会シンポジウム
[Remarks] 医療AI開発学講座 - 症例報告コーパス
- URL
  https://ai-health.m.u-tokyo.ac.jp/corpus