機械学習および統計モデルについて、同一患者の臨床的リスクの予測能を調べた結果、モデルのパフォーマンスは同等だが、予測リスクはさまざまに異なることが、英国・マンチェスター大学のYan Li氏らによる検討で示された。ロジスティックモデルと一般的に用いられる機械学習モデルは、中途打ち切りを考慮しない長期リスクの予測には適用すべきではなく、QRISK3のような生存時間分析モデルが、中途打ち切りを考慮し説明も可能であり望ましいことが示されたという。結果を踏まえて著者は、「モデル内およびモデル間の一貫性のレベルを評価することを、臨床意思決定に使用する前にルーチンとすべきであろう」と指摘している。QRISKやフラミンガムといった心血管疾患のリスク予測モデルは、臨床で幅広く使われるようになっている。これらの予測にはさまざまな技術が用いられるようにもなっており、最近の研究では、機械学習モデルがQRISKのようなモデルよりも優れているといわれるようになっていた。BMJ誌2020年11月4日号掲載の報告。
19のモデルについてリスク予測能の一貫性を検証
研究グループは機械学習と統計モデルの、個別の患者レベルおよび集団レベルにおける心血管疾患リスクの一貫性と、リスク予測の中途打ち切りの影響について評価する長期コホート試験(1998年1月1日~2018年12月31日)を行った。被験者は、イングランドの一般診療所391ヵ所でClinical Practice Research Datalinkに登録された患者360万人で、入院および死亡記録とひも付けして評価した。
主要評価項目は、モデルパフォーマンス(識別、較正)およびモデル間の同一患者におけるリスク予測の一貫性であった。検討したモデルは19で、それぞれ異なる予測技術を有するものであったが、機械学習モデルが12個(R言語で機械学習を行うパッケージCaretやSklearn、h2oに基づくロジスティックモデル、random forest、neural networkなど)、Cox比例ハザードモデルが3個(local fitted、QRISK3、フラミンガム)、パラメトリック生存モデルが3個(Weibull、Gaussian、logistic distribution)、ロジスティックモデルが1個(統計的因果関係フレームワーク適合モデル)であった。
機械学習モデルはリスクをかなり過小評価
集団レベルでは、モデル間のパフォーマンスは類似していた(C統計値はおよそ0.87で較正も同等)。
一方で、個人レベルでは、ばらつきが大きく、また機械学習や統計モデルの種別ごとに違いが認められた。ばらつきなどはとくに高リスクの患者について大きかった。
QRISK3で9.5~10.5%とリスクが予測された患者は、random forestでは2.9~9.2%、neural networkでは2.4~7.2%の予測リスクであった。QRISK3とneural networkの予測リスクの差は、95%範囲値でみた場合-23.2~0.1%にわたった。
また、中途打ち切りを考慮しないモデル(すなわち打ち切られた患者はイベントフリーと仮定する)は、心血管疾患リスクをかなり過小評価していた。QRISK3で7.5%超の心血管疾患リスクを有していた患者22万3,815人のうち、その他のモデルを用いた場合は57.8%が7.5%未満に再分類された。
(ケアネット)