グラフ表現学習を用いた教師なし学習による疾患・病態特徴の自動抽出手法の開発

研究課題

研究課題/領域番号	23K11865
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分90130:医用システム関連
研究機関	東京大学
研究代表者	関倫久東京大学, 医学部附属病院, 助教 (30528873)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円) 2025年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2024年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2023年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
キーワード	機械学習 / SS-MIX2 / 電子カルテ / グラフ / 医療データ
研究開始時の研究の概要	ベンダー間によって異なるデータ格納形態が存在する電子カルテ間の差異を可能な限り回避できるシステムを構築するため、標準規格として確立したデータ、悉皆性に優れたデータを対象として、患者データをグラフ化し臨床的に重要な情報を保持する固定長ベクトルに変換するプログラムを開発する。具体的には、患者の医療情報を逐一専門知識に基づいて処理・変換するのではなく、グラフとして扱うことでモデルへ入力し、類似性検証やクラスタ解析に適用することを目的として固定長の埋め込み表現へ変換する手法を開発し、他の研究者が利用可能となるよう開発したプログラムを公開する。
研究実績の概要	医療情報データベースは、患者一人ひとりの診療記録を蓄積し、長期にわたって患者一人ひとりに合った一貫した治療をサポートする。診療の過程では、患者ごとにさまざまなデータが蓄積され、同じ疾患であっても患者によって治療経過が大きく異なる。そのため、同じ疾患であっても、患者ごとに収集されるデータは同一ではない。診療のためにこのようなデータを記録するという主な目的に加え、データの有用な利活用のために、類似した症例を抽出したり、類似した症例をクラスタリングしたり、その他の関連するタスクを実行する必要性が考えられる。しかし、蓄積された膨大な医療データから特定の特徴を抽出するためには、関連する臨床概念に関する専門的な知識、医療情報学に基づくデータ変換・処理技術に関する専門知識、欠損値を合理的に処理する工程などが必要となる。そのため、これらの要件を満たす特徴量を手動で疾患ごとに設計することは膨大な時間と専門的知識を要する。本研究では、このような問題を解決するために、グラフ埋め込みに基づく教師なし特徴抽出を利用した、入院中の電子医療データに適用可能な機械学習ベースの手法を提案する。これまでにSSMIX2形式で保存された医療情報データに対して検査、処方、診断情報を対象としてグラフへ変換するプログラムを開発し、さらに教師なしのグラフ表現学習をGraph2Vec、InfoGraphを用いて固定長のベクトルへ変換した上でそのベクトルを時限削減後の2次元プロット、予測モデル構築に適用しそのベクトルの有用性を検証した。その結果、作成したベクトルは30日以内の再入院の予測が可能であった。これまでの検証の結果、グラフ表現学習によって蓄積された医療情報から導出したベクトルが、臨床的に重要な情報を保持していることが確認された。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本提案手法でこれまでの検証された結果により、患者情報を構造化グラフとして扱うことで、患者情報からの情報抽出から埋め込み表現の取得までを機械学習プロセスに組み込むことができることが実証されたと考えられる。また、ノードとエッジで構成できる情報であれば、グラフに情報を追加することが可能であり、より詳細な臨床情報を追加するための拡張性があると考えられる。
今後の研究の推進方策	現時点までの検証で、グラフ表現学習の医学的概念に沿った情報集約の検証ができたと考えられる。一方でグラフに変換された情報量が限られているため、得られた結果が概念実証にとどまる段階である。さらに、グラフ構造自体も、現在のものよりも特徴付けが容易で有用な埋め込み表現を得るために検証する必要がある。さらに、時系列的な特徴を抽出できるモデル構造の設計も検討すべきである。また、予測実験では、予定された再入院と事前に予測されていない入院を区別していなかったが、この点は今後の課題である。

報告書

(1件)

2023 実施状況報告書

研究成果
(4件)

すべて 2024 2023

すべて雑誌論文 (2件) (うち査読あり 2件、オープンアクセス 2件) 学会発表 (2件) (うち国際学会 2件)

[雑誌論文] Graph Representation Learning-Based Fixed-Length Clinical Feature Vector Generation from Heterogeneous Medical Records2024
- 著者名/発表者名
  Seki Tomohisa、Kawazoe Yoshimasa、Ohe Kazuhiko
- 雑誌名
  
  Studies in health technology and informatics
  
  巻: 310 ページ: 715-719
- DOI
  10.3233/shti231058
- ISBN
  9781643684567, 9781643684574
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Clinical Feature Vector Generation using Unsupervised Graph Representation Learning from Heterogeneous Medical Records.2023
- 著者名/発表者名
  Seki Tomohisa、Kawazoe Yoshimasa、Ohe Kazuhiko
- 雑誌名
  
  AMIA ... Annual Symposium proceedings. AMIA Symposium
  
  巻: 2023 ページ: 618-623
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] Clinical Feature Vector Generation using Unsupervised Graph Representation Learning from Heterogeneous Medical Records2023
- 著者名/発表者名
  Seki Tomohisa、Kawazoe Yoshimasa、Ohe Kazuhiko
- 学会等名
  AMIA 2023 Nannual Symposium
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] Graph representation learning-based fixed-length clinical feature vector generation from heterogeneous medical records2023
- 著者名/発表者名
  Seki Tomohisa、Kawazoe Yoshimasa、Ohe Kazuhiko
- 学会等名
  MEDINFO23
- 関連する報告書
  2023 実施状況報告書
- 国際学会

グラフ表現学習を用いた教師なし学習による疾患・病態特徴の自動抽出手法の開発

研究代表者

関 倫久 東京大学, 医学部附属病院, 助教 (30528873)

4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Graph Representation Learning-Based Fixed-Length Clinical Feature Vector Generation from Heterogeneous Medical Records2024

著者名/発表者名

雑誌名

DOI

ISBN

関連する報告書

[雑誌論文] Clinical Feature Vector Generation using Unsupervised Graph Representation Learning from Heterogeneous Medical Records.2023

著者名/発表者名

雑誌名

関連する報告書

[学会発表] Clinical Feature Vector Generation using Unsupervised Graph Representation Learning from Heterogeneous Medical Records2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Graph representation learning-based fixed-length clinical feature vector generation from heterogeneous medical records2023

著者名/発表者名

学会等名

関連する報告書

関倫久東京大学, 医学部附属病院, 助教 (30528873)