AIの診断精度が経時的に向上しているかを評価する研究を行った。2019年度から2021年度の3年間にわたり、市中病院一般内科外来を受診してAI自動問診を利用し、その後30日以内に入院した患者を対象として、1年間毎のAI自動問診の診断精度(AI自動問診が挙げた10個の鑑別疾患リスト内に最終診断が含まれているか否か)が変化したかどうかを調査した。結果としてはAI自動問診の診断精度は3年間で変化はなかった。疾患の珍しさや症状の典型度合いの内訳をみると、最終診断ががまれな疾患である場合や、最終診断としては非典型的な症状を呈していた場合にはAI自動問診の診断精度が低いことが分かった。 次に、大学病院総合診療科で勤務する医師を対象として、AI自動問診の作成した病歴と10個の鑑別診断リストを提示し、介入群は「AI自動問診の挙げた10個の鑑別診断リストの中に最終診断が入っていると思いますか」という質問を追加し、対照群には質問しないという2群に分け、いずれの群にも1-3つの鑑別診断を挙げてもらう試験を行った。症例は全部で20例提示し、医師の挙げた鑑別診断の中に最終診断が含まれる割合(診断精度)を両群で比較した。この試験では介入によってAI自動問診の診断精度に対する医師の信頼較正(AIが正しいかどうかを検証する)を行うことを意図した。結果は両群で医師の診断精度に差は認めなかった。介入群では、AIの鑑別疾患リストの中に最終診断が含まれているか否かの医師の判断は61%であり、AIの鑑別疾患リストの正しさを判断することは難しいことが示唆された。 これまでの研究結果より、現状のAI自動問診の診断精度は高くはないこと、AI自動問診を利用する際の医師の診断精度はAI自動問診の診断精度に影響を受けること、AI自動問診の診断の信頼性について医師は正確に評価できないことが分かった。
|