2023 Fiscal Year Research-status Report
Development of Explainable Disease Inference AI model Using Case Knowledge Extracted from Electronic Medical Records
Project/Area Number |
23K09619
|
Research Institution | Gunma University |
Principal Investigator |
野口 怜 群馬大学, 医学部附属病院, 助教 (50828861)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Keywords | 電子カルテデータ / 自然言語処理 / 非構造化データ / テキストデータ構造化 / 診断支援AI / 症例マトリクス / 病名予測 / Explainable AI |
Outline of Annual Research Achievements |
本研究は、電子カルテのテキストデータを活用し、診療録の記述に基づいて病名の予測を行い、その判断根拠も併せて提示する実用性と説明性の高いAI構築を目指すものである。研究代表者の先行研究にて確立した、電子カルテのテキストデータから「症例マトリクス」(病名・症状名を自動抽出して1患者1レコードとなるように疾患・症状の有無を構造化したデータ)を構築する手法を活用し、2023年度は、この症例マトリクスを学習データとした機械学習モデルの構築と精度向上に注力した。
具体的には、説明性の高い機械学習手法である決定木、ランダムフォレストの手法を用いて、症例マトリクスを学習データとして主訴や既往歴などの情報から病名を予測するモデルを構築した。第一段階として、循環器関連の疾患を対象としてモデルを構築した。 疾患の種類によって精度の高低はあったが、ランダムフォレストを用いると60~80%の精度で病名の検出ができた。また、影響度の高い説明変数を出力したところ、胸痛、動悸、呼吸困難など、ガイドライン上も重要な症状を示す単語が上位を占め、妥当かつ説明性の高いモデルを構築できた。今後は更なる精度向上と対象疾患の拡大を目指し、将来的な診断支援AIの実現を目指す。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2023年度は、当初の予定通り、初期モデルとして60~80%程度の一定程度の精度を持つ病名予測モデルを構築することができた。また、モデルの説明性(病名の判定結果において影響度の高い単語一覧)についても、極めて妥当な内容であり、説明性の高いモデル構築に近づいていると言え、おおむね順調に進められている。
|
Strategy for Future Research Activity |
精度向上については、学習データの精度とテストデータの精度でやや乖離のある疾患もあることから、一部で過学習が起こっている可能性が疑われる。本手法では、テキスト中の出現単語をいわゆる "Bag-of-Words (BoW)" の形式で症例マトリクスとして抽出していることから、説明変数の数が膨大な量になっており、これが過学習につながっている可能性がある。したがって、まずは正則化などの手法を用いて、次元削減を行い、過学習の改善を試みる。 また、対象疾患については、現状、循環器系の疾患を対象としているが、本手法の有効性、汎用性を示す上でも、順次、他の内科系疾患への拡張を試みる。
|
Causes of Carryover |
2023年度は、当初、研究成果をもとに国際学会の出張を想定していたが、時期的な都合がつかず、断念したため、その分の予算が大幅に余った。また、計算資源としてコンピュータを購入予定であったが、研究進捗の兼ね合いもあり、今年度は見送ったため、その分の予算も余った。次年度以降、国際学会および、計算資源の購入を順次進めていく予定である。
|