研究課題/領域番号 |
16K09161
|
研究機関 | 東京大学 |
研究代表者 |
河添 悦昌 東京大学, 医学部附属病院, 講師 (10621477)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | EHR Phenotyping / 電子的診療情報 / 深層学習 |
研究実績の概要 |
電子的診療データを活用するために複数種類の診療情報を用いて特定の疾患を同定し抽出するEHR Phenotypingは重要な技術となる。本研究は患者の疾患や状態を高次元の特徴ベクトルによって表現し、機械学習の手法を用いて精度の高いEHR Phenotyping を行うアルゴリズムの開発を目指している。H28年度は東京大学医学部附属病院の電子カルテシステムとSS-MIX2標準化ストレージから、構造化診療データ(患者基本情報、診断病名、投薬情報、検体検査結果等、バイタルサイン)と非構化診療データ(放射線読影レポート、病理レポートなど各種検査レポート)を抽出し実験のためのデータベースを構築した。このデータベースから一定の基準を満たす約10万症例を抽出し任意のがんの有無を識別するアルゴリズムを開発し評価を行った。機械学習の入力となる特徴は、登録病名が約1400種、医薬品が約800種、検査項目が約1700種であり合計約3900種であった。従来の機械学習手法として、Support Vector Machine, Random Forestを用い、深層学習のアルゴリズムとして、Stacked Auto-encoder, Convolution Neural Networkを用いて各モデルの評価を行ったところ、AUC-ROCで0.965-0.974、AUC-PRで0.90-0.924といずれのアルゴリズムも高い精度を示した。特に、入力データを3チャネル2次元とするConvolution Neurarl Networkを用いたモデルの精度が最も高かったことから、入力データを工夫することでより精度の高いモデルの開発が可能と考えられた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
H28年度の課題である下記1)と3)、ならびにH29年度以降の課題である4)の一次評価を本年度に行った。H28年度の課題とした2)については引き続き検討中であるため、概ね順調に進展しているとした。
1) 研究のインフラとなる匿名化データベースの作成 2) EHRデータの緻密化手法の検討 3) 患者の疾患や状態を表現する高次元特徴量の設計 4) がん症例を同定する EHR Phenotyping アルゴリズムの開発ならびに精度評価
|
今後の研究の推進方策 |
H28年度は、データベースの構築からアルゴリズムの評価までを一通り行った。H29年度はEHRデータの緻密化手法を検討すること、ならびに非構化診療データ(自然言語文書)を扱うための方法に取み、より精度の高いモデルの開発を目指す。本年度の実験によりConvolution Neurarl Networkの有効性がわかり、診療データのように画像とは異なる種類のデータであっても、工夫して2次元化することでより精度の高いモデルの実現が可能かもしれず、この検討を引き続き行う。
|