研究課題/領域番号 |
23K09619
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分58010:医療管理学および医療系社会学関連
|
研究機関 | 群馬大学 |
研究代表者 |
野口 怜 群馬大学, 医学部附属病院, 助教 (50828861)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2025年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2024年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2023年度: 2,340千円 (直接経費: 1,800千円、間接経費: 540千円)
|
キーワード | 電子カルテデータ / 自然言語処理 / 非構造化データ / テキストデータ構造化 / 診断支援AI / 症例マトリクス / 病名予測 / Explainable AI / 説明可能AI / ドメイン知識融合 |
研究開始時の研究の概要 |
真の診断支援AIの構築には、電子カルテのテキストデータの活用が不可欠であるが、非構造化データのために扱いが難しくまだ十分に活用されていない。 本研究では、電子カルテのテキストデータから疾患名・症状名を自動抽出して患者ごとの疾患・症状の構造化データ(症例マトリクス)を生成し、診断ガイドラインなどの医学知見も組み込み、症例をナレッジ化する方法論を確立する。併せて、症例マトリクスを学習データとして実用レベルの精度を持った説明性の高い病名予測AIを構築する手法を確立する。 将来的な診断支援AIの実現に向けたコア技術になる可能性があり、医療の質向上や均てん化、医師の負担軽減に大きく貢献できると考えられる。
|
研究実績の概要 |
本研究は、電子カルテのテキストデータを活用し、診療録の記述に基づいて病名の予測を行い、その判断根拠も併せて提示する実用性と説明性の高いAI構築を目指すものである。研究代表者の先行研究にて確立した、電子カルテのテキストデータから「症例マトリクス」(病名・症状名を自動抽出して1患者1レコードとなるように疾患・症状の有無を構造化したデータ)を構築する手法を活用し、2023年度は、この症例マトリクスを学習データとした機械学習モデルの構築と精度向上に注力した。
具体的には、説明性の高い機械学習手法である決定木、ランダムフォレストの手法を用いて、症例マトリクスを学習データとして主訴や既往歴などの情報から病名を予測するモデルを構築した。第一段階として、循環器関連の疾患を対象としてモデルを構築した。 疾患の種類によって精度の高低はあったが、ランダムフォレストを用いると60~80%の精度で病名の検出ができた。また、影響度の高い説明変数を出力したところ、胸痛、動悸、呼吸困難など、ガイドライン上も重要な症状を示す単語が上位を占め、妥当かつ説明性の高いモデルを構築できた。今後は更なる精度向上と対象疾患の拡大を目指し、将来的な診断支援AIの実現を目指す。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2023年度は、当初の予定通り、初期モデルとして60~80%程度の一定程度の精度を持つ病名予測モデルを構築することができた。また、モデルの説明性(病名の判定結果において影響度の高い単語一覧)についても、極めて妥当な内容であり、説明性の高いモデル構築に近づいていると言え、おおむね順調に進められている。
|
今後の研究の推進方策 |
精度向上については、学習データの精度とテストデータの精度でやや乖離のある疾患もあることから、一部で過学習が起こっている可能性が疑われる。本手法では、テキスト中の出現単語をいわゆる "Bag-of-Words (BoW)" の形式で症例マトリクスとして抽出していることから、説明変数の数が膨大な量になっており、これが過学習につながっている可能性がある。したがって、まずは正則化などの手法を用いて、次元削減を行い、過学習の改善を試みる。 また、対象疾患については、現状、循環器系の疾患を対象としているが、本手法の有効性、汎用性を示す上でも、順次、他の内科系疾患への拡張を試みる。
|