非専門医とはすでに同等!?医師vs.生成AIの診断能力を比較

提供元:ケアネット

印刷ボタン

公開日:2025/04/03

 

 生成AIと医師の診断能力を比較した系統的レビューおよびメタアナリシスの結果、非専門医と比較した場合の正確度の差はわずか0.6%ほどにとどまった(p=0.93)。さらに、一部の最新モデルでは、統計学的な有意差は認められなかったものの非専門医をわずかに上回る性能を示していた。大阪公立大学の田北 大昂氏らによる、NPJ Digital Medicine誌2025年3月22日号掲載の報告より。

 本研究では、診断業務における生成AIモデルの妥当性を検証した研究を対象に、2018年6月~2024年6月までに発表された文献の系統的レビューおよびメタアナリシスを実施した。

 主な結果は以下のとおり。

・複数のデータベースから計1万8,371件の文献を抽出し、重複や基準を満たさないものを除外したうえで、最終的に83件の研究を対象にメタアナリシスを行った。
・最も多く評価されていたモデルはGPT-4(54件)およびGPT-3.5(40件)であった。
・レビュー対象の診療科は、一般内科が最も多く(27件)、放射線科(16件)、眼科(11件)、救急科(8件)、神経科(4件)、皮膚科(4件)、耳鼻咽喉科(2件)、精神科(2件)と続き、消化器科、循環器科、小児科、泌尿器科、内分泌科、婦人科、整形外科、リウマチ科、形成外科が各1件であった。
・生成AIモデルの全体的な正確度は52.1%(95%信頼区間[CI]:47.0~57.1%)であった。
・生成AIモデル全体の診断性能は、医師全体(医師の正確度が9.9%高[95%CI:-2.3~22.0%]、p=0.10)および非専門医(非専門医の正確度が0.6%高[95%CI:-14.5~15.7%]、p=0.93)との間に有意な差は示されなかった一方、専門医と比較すると有意に劣っていた(正確度の差:15.8%[95%CI:4.4~27.1%]、p=0.007)。
・GPT-4、GPT-4o、Llama 3 70B、Gemini 1.0 Pro、Gemini 1.5 Pro、Claude 3 Sonnet、Claude 3 Opus、Perplexityなどいくつかのモデルは、非専門医と比較してわずかに高い診断性能を示したが、その差は統計学的に有意ではなかった。
・一般内科と多くのその他の診療科との間に有意な診断性能の差は認められなかったが、泌尿器科および皮膚科においては有意な差がみられた(p<0.001)。

 著者らは、多くの対象論文がバイアスリスクを抱えていること、異なる患者集団やより複雑な現実のシナリオを反映した場合は生成AIの性能が下がる可能性があることなど本研究の限界を挙げたうえで、生成AIは現時点では専門医のレベルには達していないものの、非専門的な分野での活用や教育ツールとして有益な可能性があると結論付けている。

(ケアネット 遊佐 なつみ)