研究課題/領域番号 |
20H04279
|
研究機関 | 東京大学 |
研究代表者 |
河添 悦昌 東京大学, 医学部附属病院, 特任准教授 (10621477)
|
研究分担者 |
関 倫久 東京大学, 医学部附属病院, 助教 (30528873)
篠原 恵美子 東京大学, 医学部附属病院, 特任助教 (40582755)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | 診療テキスト / 遺伝性疾患 / 告示難病 / 自然言語処理 / Human Phenotype Ontology / Named Entity Recognition / Relation Extraction |
研究実績の概要 |
本研究は、日本語診療テキストから病名や症状、所見などの表現型に関する情報を網羅的に抽出するための基盤技術を開発する。また、開発した技術と既存アルゴリズムを応用し、実際の退院サマリを対象とした遺伝性疾患のランキング精度を評価する。本年度は、各臨床医学系学会の症例報告テキストとアノテーションデータからなるテキストコーパスの開発を進め、性能評価を行った。また、開発したコーパスを公開できるよう、著作権者への許諾手続きを取った。 1) 症例報告コーパスの開発と公開。告示指定難病を対象にWebで公開される症例報告を収集しテキスト化を行った。テキスト中の表現型を同定するタスクを、自然言語処理における固有表現抽出、関係抽出、用語集へのコーディングの一連のタスクとして定式化し、開発したアノテーション基準に従い症例報告テキストへの網羅的なアノテーションを行った。結果、告示難病333疾患のうち151疾患について計362症例報告からなるコーパスを開発した。現時点で、固有表現タグの種類は47(述べ固有表現数 118,261)、関係の種類数は34(延べ関係数 115,289)となった。このうち、テキスト再配布の許諾が得られた約180の症例報告についてコーパスの公開を行う予定である。 2) 性能評価とコーパスの改善。本コーパスを利用しテキストから表現型を同定するためには、固有表現抽出、関係抽出、用語集コーディングの3種類のタスクを実行する必要がある。本年度は、固有表現抽出と関係抽出とを同時に行う機械学習モデルを、診療テキストで事前学習済みの言語モデル(BERT: Bidirectional Encoder Representations from Transformers)をベースとして開発し性能評価を行った。誤り分析およびアノテーションの修正を繰り返し行うことで、コーパスの質とモデルの性能の改善を進めている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究の目的の1つは、テキスト中の表現型を網羅的に抽出するための基盤技術を開発することであるが、その最も重要な構成要素である症例報告コーパスの開発が進んでいることをもって、順調に進捗しているとした。本症例報告コーパスは難病・遺伝性疾患を対象としており、これら疾患は診療科や臓器を横断するものであることから、幅広い症状や所見、医療行為が含まれる点が特徴である。また、アノテーション基準については、言語学的な制約よりもむしろ、医療上の観点に立脚した情報モデルに基づいて、網羅性・一貫性・汎用性を有するコーパスとなるように設計した。症例報告テキスト(362症例)へのアノテーション実施を通して、整合性をもってこれを行えていることから、基準を大きく変更することなく、コーパスの拡充を行えるものと考えている。
|
今後の研究の推進方策 |
症例報告コーパスの開発に関する課題として、症状・所見などの固有表現を用語集にコーディングすることが人手であっても難しいことがあげられ、本年度はこの課題に取り組む。このコーディングを正確に行うことができれば、難病・遺伝性疾患の候補を提示する既存のアルゴリズムを利用して、疾患のランキングの精度を評価することが可能となる。一方で、本コーパスから表現型を自動で同定する技術について、固有表現抽出は高い精度で行えるものの、関係抽出とコーディングまでを含めたタスクの難易度は高いと予想されるため、さらなる技術改良が必要である。本症例コーパスを一般に公開し利用してもらうことで、これらのタスクを解くための技術促進とともに、医療分野の自然言語処理技術の向上の一助となることが期待される。
|
備考 |
症例報告コーパスのコンテンツ公開は6月を予定している
|