臨床試験の著者は報告でサブグループ効果を主張することが多いが、その信頼性は主張が強力な場合でも一般に低いことが、米国・Kaiser Permanente Northwest(ポートランド市)のXin Sun氏らの検討で示された。臨床試験のサブグループ解析では、サブグループに関する仮説が事前に規定されていなかったり、統計学的な検証が適切に行われない場合があるという。近年、無作為化比較試験におけるサブグループ解析の限界や、予測されるサブグループ効果の信頼性の評価基準の検討が進められてきた。BMJ誌2012年4月14日号(オンライン版2012年3月15日号)掲載の報告。
サブグループ効果の信頼性を系統的なレビューで評価
研究グループは、最近出版された無作為化比較試験の代表的な論文を対象に、著者が主張するサブグループ効果の信頼性を評価する系統的なレビューを行った。
2007年に、臨床系の主要医学ジャーナルに発表された無作為化比較試験の論文を抽出した。経験豊富なレビューアのチームが、事前に規定された判定基準を用いて、著者が主張するサブグループ効果およびその主張の強度(「強い」「可能性あり」「可能性を示唆」の3段階に分類)の評価を行った。個々の試験の主張は、既存の基準を参考に事前に定義された10の判定基準で評価した。
判定基準を満たさない主張には慎重に対処すべき
サブグループ解析の報告を行っていた207の無作為化比較試験のうち、64試験(31%)が主要アウトカムに関するサブグループ効果を主張していた。そのうち20試験の主張の強度は「強い」と判定、28試験の主張は「可能性あり」、16試験は「可能性を示唆」と判定された。10の判定基準を満たした試験の結果は以下のとおり。
試験デザインに関する基準:1)ベースライン時に測定した患者背景因子をサブグループ解析の変量としている;60試験(94%)、2)無作為割り付け時の層別化因子をサブグループ解析の変量としている;13試験(20%)、3)サブグループに関する仮説を事前に明確に規定している;26試験(41%)、4)当該サブグループ解析は、検証された少数(≦5)の仮説のうちの1つである;28試験(44%)。
解析法に関する基準:5)統計学的有意性を検証する交互作用検定を行っている;6試験(9%)、6)複数のサブグループ効果を主張している場合(19試験)、交互作用の独立性を検証している;1試験(5%)。
論文内容に関する基準:7)サブグループ効果の方向性を事前に正確に規定している;4試験(6%)、8)過去の関連試験のエビデンスと一致するサブグループ効果が示されている;21試験(33%)、9)関連アウトカム間で一貫性のあるサブグループ効果を同定している;19試験(30%)、10)明確なサブグループ効果を支持する説得力のある間接的なエビデンス(生物学的根拠、動物実験など)を提示している;14試験(22%)。
64試験中54試験(84%)が、10の判定基準のうち4つ以下しか満たさなかった。「強い」主張のうち、50%以上が判定基準を1つも満たさず、5つ以上の判定基準を満たしたのは3つ(15%)の主張だけだった。
著者は、「臨床試験の著者は報告でサブグループ効果を主張することが多いが、その信頼性は主張の強度が強い場合でも一般に低い」と結論し、「論文の情報を利用する場合、判定基準を満たさない主張には疑いをもって慎重に対処すべきである。研究者はサブグループ解析の詳細を報告すべきであり、サブグループ効果を主張したり、効果の可能性を示唆する場合は十分なエビデンスを示すべきである」と指摘している。
(菅野守:医学ライター)