精度の低いAIは臨床医の誤診を増やす?/JAMA

提供元:ケアネット

印刷ボタン

公開日:2023/12/28

 

 臨床医の診断精度は、標準的な人口知能(AI)モデルと一般的に用いられている画像ベースのAIモデルを提供された場合は向上するが、系統的に偏ったAIモデルを提供された場合は低下し、その影響は画像ベースのAIモデルで補うことはできなかったことが、米国・ミシガン大学のSarah Jabbour氏らによる検討で示された。AIは入院患者を診断する際に臨床医の助けになる可能性があるが、AIモデルの系統的な偏りは臨床医の診断精度を悪化させる可能性が示唆されており、最近の規制ガイドラインでは、AIモデルに、モデルによる誤りを軽減するための判断根拠の説明(AI explanations)を組み込むことを求めている。しかし、この戦略の有効性は確立されていなかった。JAMA誌2023年12月19日号掲載の報告。

急性心不全のビネットをみて、肺炎、心不全、COPDの可能性を判断

 研究グループは無作為化臨床ビネット調査研究により、臨床医の診断精度に及ぼす系統的に偏ったAIモデルの影響を評価し、画像ベースのAIモデルがモデルの誤りを軽減可能かどうかについて調べた。2022年4月~2023年1月に、米国の13州から、急性呼吸不全患者のケアに携わる機会が多い病院医とナースプラクティショナー、フィジシャンアシスタントを募り行われた。

 研究グループは、ミシガン大学に2017年に急性呼吸不全で入院した患者情報(症状、身体所見、臨床検査結果、胸部X線写真など)に基づき、45の臨床ビネットを作成した。試験参加者は、そのうち9つの臨床ビネットを提示され、各患者(臨床ビネット)の急性心不全の根底にある原因として肺炎、心不全、慢性閉塞性肺疾患(COPD)の可能性を判断するよう問われた。次に、ベースライン診断の精度を確認するためにAIモデル入力(AI model input)なしの2つの臨床ビネットを提示された。続いてAIモデル説明のある/なしの6つの臨床ビネットをみるように無作為化された。これら6つのうち3つのAIモデルは標準予測モデルであり、3つは系統的に偏った予測モデルであった。

 主要アウトカムは、肺炎、心不全、COPDの臨床診断精度であった。

系統的に偏ったAIモデルを参照すると診断精度は低下

 1,024例が研究インフォメーションページを閲覧し、572例(56%)が研究に参加し無作為化された。457例の参加者が1回以上臨床ビネットを完了し、主要解析に含まれた(231例が標準予測+説明なしAIモデル[標準的AIモデル]群、226例が標準予測+説明ありAIモデル[説明ありAIモデル]群)。9つの臨床ビネットを完了したのは、418例であった。年齢中央値は34歳(四分位範囲[IQR]:31~39)、241例(57.7%)が女性。

 臨床医のベースライン診断精度は、3疾患に関して73.0%(95%信頼区間[CI]:68.3~77.8)であった。

 標準的AIモデルを提示された際の臨床医の診断精度は、ベースラインよりも2.9ポイント(95%CI:0.5~5.2)上昇し、説明ありAIモデルを提示された場合も同様に4.4ポイント(2.0~6.9)上昇した。

 しかしながら、系統的に偏った予測AIモデルを提示された場合、臨床医の診断精度はベースラインと比べて11.3ポイント(95%CI:7.2~15.5)低下した。説明ありの系統的に偏った予測AIモデルを提供しても9.1ポイント(4.9~13.2)低く、系統的に偏った予測AIモデル単独を提示された場合と比べても2.3ポイント(-2.7~7.2)の有意ではない改善にとどまった。

 結果を踏まえて著者は、「前例のないペースでAI開発が進んでいるが、臨床業務フローにAIを組み込むことには慎重な検証が不可欠である。研究結果は、不備のあるAIのバックストップとして臨床医が機能できない可能性を示す一方で、AIの限界を理解するうえで重要な役割を果たす可能性を示唆するものであった」とまとめている。

(ケアネット)