研究課題/領域番号 |
20K18874
|
研究機関 | 群馬大学 |
研究代表者 |
野口 怜 群馬大学, 医学部附属病院, 助教 (50828861)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | 電子カルテデータ / 自然言語処理 / 非構造化データ / テキストデータ構造化 / 診断支援AI / 疾患判別モデル / 症例マトリクス / 類似症例予測AI |
研究実績の概要 |
本研究は、電子カルテのテキストデータを活用し、診療録の記述に基づいて疾患名の診断支援を行うAI構築を目指すものである。 2020年度に確立した「症例マトリクス」の構築手法に基づいて、2021年度は、この症例マトリクスを学習データとした機械学習モデルの構築に注力した。具体的には、疾患判別および、類似症例予測の機械学習モデル構築を試み、いずれも一定の精度を持つモデルが得られ、本研究のアプローチの有用性が示された。
■疾患判別モデルの構築:当院10年分の退院時サマリーから抽出された症例マトリクスを活用し、主病名が主要な循環器疾患8種である症例に対して、症例マトリクス内の疾患名と特徴語(当該症例の退院サマリーより抽出された主に症状などの疾患特異的な単語)との関係性を機械学習手法を用いて学習させた。学習データに対しては、特定の循環器疾患を最大で再現率87%で検出可能なモデルを構築できた。
■類似症例予測モデルの構築:疾患判別モデルと同様に、主病名を循環器疾患8種に限定した上で、複数回入院患者を除いた約1,000例分の症例マトリクスを学習データとした。この症例マトリクスに対して、ECサイトのレコメンデーションに頻用されるユーザベースの協調フィルタリングを適用し、類似症例予測のフレームワークを構築した。入力となる1症例分の単語集計結果(=症例ベクトル)と、症例マトリクス内の各症例ベクトルとの相関係数を算出し、症例マトリクスの中から類似の症例を抽出する構成とした。性能評価として、症例マトリクスから1症例のみを抽出し、これを未知の症例ベクトルとして与えて、残りの症例から類似症例を抽出する実験を、全症例に対して逐次行った。結果として、約3割の症例で、基準(相関係数0.3以上かつ、一致した特徴語数が3語以上)を満たす類似症例が抽出され、約1割の症例では、類似症例の主病名が入力症例の主病名と一致した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
当初の計画では、 ・2020年度:退院サマリーデータ抽出およびデータ構造化の手法構築 ・2021年度:症例マトリクス構築手法の確立 ・2022年度:疾患判別AIの構築 であったが、2021年度までに、前倒しで疾患判別AIのベースとなる機械学習モデルを構築しており、当初の計画以上に進展していると言える。また、当初計画になかった、「類似症例予測モデル」も構築することができ、進捗状況は芳しい。
|
今後の研究の推進方策 |
前倒しで進捗できている分、最終年にあたる2022年度は、より実運用に近づけるよう、モデルチューニングおよび、モデル汎用性の向上に注力していく。特に、精度についてはまだまだ向上が必要である。 具体的には、現状、超高次元行列となっている症例マトリクスを、スパースモデリングなどの数理的手法や、事前知識との組み合わせなどにより、次元削減や重みづけを行い、予測力の向上を試みる。また、退院サマリーだけでなく、日常診療の診察記事や各種検査結果のデータも組み合わせて活用していくことで、さらなる精度向上を図りたい。 また、本フレームワークは、他病院の退院サマリーにも適用可能な手法であることから、他病院データとの連携可能性についても模索していく予定である。
|
次年度使用額が生じた理由 |
新型コロナウイル感染症拡大に伴い、国内/海外の出張のほとんどがキャンセルとなっため、旅費が大幅に削減されたことが最大の理由である。
|