グラフ表現学習を用いた教師なし学習による疾患・病態特徴の自動抽出手法の開発

Research Project

Project/Area Number	23K11865
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 90130:Medical systems-related
Research Institution	The University of Tokyo
Principal Investigator	関倫久東京大学, 医学部附属病院, 助教 (30528873)
Project Period (FY)	2023-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000) Fiscal Year 2025: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000) Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000) Fiscal Year 2023: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Keywords	機械学習 / SS-MIX2 / 電子カルテ / グラフ / 医療データ
Outline of Research at the Start	ベンダー間によって異なるデータ格納形態が存在する電子カルテ間の差異を可能な限り回避できるシステムを構築するため、標準規格として確立したデータ、悉皆性に優れたデータを対象として、患者データをグラフ化し臨床的に重要な情報を保持する固定長ベクトルに変換するプログラムを開発する。具体的には、患者の医療情報を逐一専門知識に基づいて処理・変換するのではなく、グラフとして扱うことでモデルへ入力し、類似性検証やクラスタ解析に適用することを目的として固定長の埋め込み表現へ変換する手法を開発し、他の研究者が利用可能となるよう開発したプログラムを公開する。
Outline of Annual Research Achievements	医療情報データベースは、患者一人ひとりの診療記録を蓄積し、長期にわたって患者一人ひとりに合った一貫した治療をサポートする。診療の過程では、患者ごとにさまざまなデータが蓄積され、同じ疾患であっても患者によって治療経過が大きく異なる。そのため、同じ疾患であっても、患者ごとに収集されるデータは同一ではない。診療のためにこのようなデータを記録するという主な目的に加え、データの有用な利活用のために、類似した症例を抽出したり、類似した症例をクラスタリングしたり、その他の関連するタスクを実行する必要性が考えられる。しかし、蓄積された膨大な医療データから特定の特徴を抽出するためには、関連する臨床概念に関する専門的な知識、医療情報学に基づくデータ変換・処理技術に関する専門知識、欠損値を合理的に処理する工程などが必要となる。そのため、これらの要件を満たす特徴量を手動で疾患ごとに設計することは膨大な時間と専門的知識を要する。本研究では、このような問題を解決するために、グラフ埋め込みに基づく教師なし特徴抽出を利用した、入院中の電子医療データに適用可能な機械学習ベースの手法を提案する。これまでにSSMIX2形式で保存された医療情報データに対して検査、処方、診断情報を対象としてグラフへ変換するプログラムを開発し、さらに教師なしのグラフ表現学習をGraph2Vec、InfoGraphを用いて固定長のベクトルへ変換した上でそのベクトルを時限削減後の2次元プロット、予測モデル構築に適用しそのベクトルの有用性を検証した。その結果、作成したベクトルは30日以内の再入院の予測が可能であった。これまでの検証の結果、グラフ表現学習によって蓄積された医療情報から導出したベクトルが、臨床的に重要な情報を保持していることが確認された。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本提案手法でこれまでの検証された結果により、患者情報を構造化グラフとして扱うことで、患者情報からの情報抽出から埋め込み表現の取得までを機械学習プロセスに組み込むことができることが実証されたと考えられる。また、ノードとエッジで構成できる情報であれば、グラフに情報を追加することが可能であり、より詳細な臨床情報を追加するための拡張性があると考えられる。
Strategy for Future Research Activity	現時点までの検証で、グラフ表現学習の医学的概念に沿った情報集約の検証ができたと考えられる。一方でグラフに変換された情報量が限られているため、得られた結果が概念実証にとどまる段階である。さらに、グラフ構造自体も、現在のものよりも特徴付けが容易で有用な埋め込み表現を得るために検証する必要がある。さらに、時系列的な特徴を抽出できるモデル構造の設計も検討すべきである。また、予測実験では、予定された再入院と事前に予測されていない入院を区別していなかったが、この点は今後の課題である。

Report

(1 results)

2023 Research-status Report

Research Products
(4 results)

All 2024 2023

All Journal Article (2 results) (of which Peer Reviewed: 2 results, Open Access: 2 results) Presentation (2 results) (of which Int'l Joint Research: 2 results)

[Journal Article] Graph Representation Learning-Based Fixed-Length Clinical Feature Vector Generation from Heterogeneous Medical Records2024
- Author(s)
  Seki Tomohisa、Kawazoe Yoshimasa、Ohe Kazuhiko
- Journal Title
  
  Studies in health technology and informatics
  
  Volume: 310 Pages: 715-719
- DOI
  10.3233/shti231058
- ISBN
  9781643684567, 9781643684574
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Clinical Feature Vector Generation using Unsupervised Graph Representation Learning from Heterogeneous Medical Records.2023
- Author(s)
  Seki Tomohisa、Kawazoe Yoshimasa、Ohe Kazuhiko
- Journal Title
  
  AMIA ... Annual Symposium proceedings. AMIA Symposium
  
  Volume: 2023 Pages: 618-623
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Presentation] Clinical Feature Vector Generation using Unsupervised Graph Representation Learning from Heterogeneous Medical Records2023
- Author(s)
  Seki Tomohisa、Kawazoe Yoshimasa、Ohe Kazuhiko
- Organizer
  AMIA 2023 Nannual Symposium
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] Graph representation learning-based fixed-length clinical feature vector generation from heterogeneous medical records2023
- Author(s)
  Seki Tomohisa、Kawazoe Yoshimasa、Ohe Kazuhiko
- Organizer
  MEDINFO23
- Related Report
  2023 Research-status Report
- Int'l Joint Research

グラフ表現学習を用いた教師なし学習による疾患・病態特徴の自動抽出手法の開発

Principal Investigator

関 倫久 東京大学, 医学部附属病院, 助教 (30528873)

¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Graph Representation Learning-Based Fixed-Length Clinical Feature Vector Generation from Heterogeneous Medical Records2024

Author(s)

Journal Title

DOI

ISBN

Related Report

[Journal Article] Clinical Feature Vector Generation using Unsupervised Graph Representation Learning from Heterogeneous Medical Records.2023

Author(s)

Journal Title

Related Report

[Presentation] Clinical Feature Vector Generation using Unsupervised Graph Representation Learning from Heterogeneous Medical Records2023

Author(s)

Organizer

Related Report

[Presentation] Graph representation learning-based fixed-length clinical feature vector generation from heterogeneous medical records2023

Author(s)

Organizer

Related Report

関倫久東京大学, 医学部附属病院, 助教 (30528873)