画像診断での深層学習 vs.専門医、前向き研究やRCT少ない/BMJ

提供元:ケアネット

印刷ボタン

公開日:2020/04/06

 

 画像診断に関する前向き深層学習(deep learning)研究や無作為化試験は少なく、非無作為化試験のほとんどは前向き研究ではなく、バイアスのリスクが高く、既存の報告基準から逸脱していることが、英国・インペリアル・カレッジ・ロンドンのMyura Nagendran氏らの検討で示された。また、多くの研究は、データやコード(データの前処置とモデル化に使用)を利用できず、比較群の専門医数が少ないことも明らかとなった。研究の詳細は、BMJ誌2020年3月25日号に掲載された。近年、人工知能(AI)の一部門である深層学習に関する研究の報告が、急速に増加している。これに伴い、AIは医師より能力が優れるとするメディアの見出しが、人々を誇大な宣伝であおり、その加速度的な推進が強く求められている。

深層学習と専門医の診断能の比較研究を系統的にレビュー

 研究グループは、医用画像における診断的深層学習アルゴリズムの能力を、専門医と比較した研究に関して、そのデザインや報告基準、バイアスのリスク、知見を検証する目的で、系統的レビューを行った(特定の研究助成は受けていない)。

 2010~19年6月の期間に、医学データベース(Medline、Embase、Cochrane Central Register of Controlled Trials、World Health Organization trial registry)に登録された文献を検索した。対象は、医用画像の診断能を、深層学習アルゴリズムと1人以上の同年輩の専門医で比較した無作為化または非無作為化研究であった。

 報告基準の順守の評価には、無作為化試験は「臨床試験報告に関する統合基準(CONSORT)」、非無作為化試験は「個別の予後や診断に関する多変量予測モデルの透明性(TRIPOD)」を用いた。また、リスクのバイアスの評価には、それぞれ“Cochrane risk of bias tool”および「予測指標のバイアスリスク評価ツール(PROBAST)」が用いられた。

無作為化試験は10件、報告済みは2件のみ

 深層学習アルゴリズムの無作為化試験は10件と少なく、8件が消化器、1件が眼科、1件が放射線領域の研究であった。また、8件が中国、1件が米国、1件が台湾の試験だった。終了して結果を報告済みの試験は2件(いずれも中国の研究)のみで、3件は参加者登録中、5件は登録開始前であった。

 報告済みの無作為化試験2件のうち1件(眼科)は、参加者などの盲検化の問題を除きバイアスのリスクは低く、CONSORTチェックリストの37項目中31項目(84%)が順守され、順守率は高かった。もう1件(消化器)は、参加者やアウトカム評価者などの盲検化の問題を除きバイアスのリスクは低く、CONSORTチェックリストの37項目中30項目(81%)が順守されていた。

 非無作為化試験は81件で、前向き研究は9件のみであり、このうち設定が実臨床(real world)の研究は6件だけだった。24件(30%)が米国の研究で、次いで14件(17%)が中国、12件(15%)が韓国、9件(11%)は日本の研究だった。36件(44%)が放射線、17件(21%)が眼科、9件(11%)が皮膚科、5件(6%)が消化器、5件(6%)が組織病理領域の研究だった。

 非無作為化試験の比較群における専門医数中央値は4人(IQR:2~9)と、きわめて少なかった。すべてのデータセットとコードの利用は厳格に制限されており、それぞれ95%および93%の試験からは利用できなかった。全体のバイアスのリスクは81件中58件が「高」で、報告基準の順守状況は最適とはいえなかった(TRIPODの29項目中12項目で順守率が50%未満)。

 また、81件中61件(75%)は、抄録中に「AIの能力は専門医と少なくとも同等またはそれ以上」と記述していた。論文のdiscussionに、「さらなる前向き研究または臨床試験が求められる」と記述していた研究は81件中31件(38%)のみだった。

 著者は、「今後の研究では、バイアスのリスクを減らし、実臨床との関連性を強化し、報告の仕方や透明性を改善するとともに、結論を適切に調整する必要がある」としている。

(医学ライター 菅野 守)