AIを活用した診断能の向上に関する報告が相次いでいる。今回、オーストリア・ウィーン医科大学のVincent Dick氏らが行ったメタ解析の結果、メラノーマの検出におけるコンピュータ支援診断システムによる診断精度は、専門医による診断精度と同程度であると報告された。ただし、結果について著者は、「リアルワールドでの同システムの適用性は未知数であり、過剰適合性や試験のバイアスリスクによって制限される可能性がある」とまとめている。最近の機械学習分野の進歩により、コンピュータ支援診断システムがメラノーマ診断のスタンダードになるのではないか、との期待が高まっている。JAMA Dermatology誌オンライン版2019年6月19日号掲載の報告。
研究グループは、最新の論文の批評的なレビューと、コンピュータ支援診断システムと皮膚科専門医の診断精度の比較検討を目的とし、2002年1月1日~2018年12月31日に発表された適格試験を特定するため、MEDLINE、arXiv、PubMed Centralのデータベースを検索した。
メラノーマの検出に関する自動化システムの精度を報告していた試験を適格とし、検索した単語には、melanoma(メラノーマ)、diagnosis(診断)、detection(検出)、computer aided(コンピュータ支援)、artificial intelligence(人工知能)などが含まれた。
QUADAS-2を用いてバイアスリスクを、事前規定に基づき研究の質をそれぞれ評価した。データ分析は、2019年2月1日~3月10日に行われた。
主要評価項目は、診断精度の指標となる感度と特異度の要約推定値、およびサマリーROC曲線だった。
主な結果は以下のとおり。
・適格条件を満たしたのは1,694試験だった。
・そのうち132試験が包含され、定量分析に十分な情報を含んでいたのは70試験であった。
・大半の試験はコンピュータサイエンス分野のものであり、前向き臨床試験はまれであった。
・自動化システムの結果を統合すると、メラノーマ検出の感度は0.74(95%信頼区間[CI]:0.66~0.80)、特異度は0.84(95%CI:0.79~0.88)だった。
・感度は、独立性の検定を用いた試験のほうが、用いない試験よりも有意に低かった(0.51[95%CI:0.34~0.69]vs.0.82[95%CI:0.77~0.86]、p<0.001)。
・一方で、特異度は同程度だった(0.83[95%CI:0.71~0.91]vs.0.85[95%CI:0.80~0.88]、p=0.67)。
・皮膚科専門医とコンピュータ支援診断システムの診断を比較すると、感度は同程度であり、特異度はコンピュータ支援診断システムが10ポイント低かったものの、統計的に有意差はなかった。
・なお、試験全体は不均一で、定量分析で包含した70試験のうち4試験を除くすべてに、リスクバイアスが見つかった。
(ケアネット)