p値の記載のある抄録や論文は増加しており、そのほとんどが統計学的に有意差のある結果の報告であることが、パリ・イル・ド・フランス複雑系研究所(ISC-PIF)のDavid Chavalarias氏らの検討で明らかとなった。研究の成果は、JAMA誌2016年3月15日号に掲載された。生物医学などの研究分野では、研究結果から得られる結論の伝達に、p値による統計的検定が用いられるが、p値の誤用や誤解、伝達不良への関心が高まっている。また、報告バイアス(reporting bias、「否定的な」結果とは対照的に、統計学的に有意差のある結果は優先的に公表され、強調されることによるバイアス)に関するさまざまな分野からのエビデンスが増えており、これは公表された科学文献の信頼性において重大な意味を持つ可能性があるという。
過去25年間の文献で、p値と他の統計情報の報告状況を評価
研究グループは、過去25年間における生物医学文献のp値の報告状況を調査し、p値以外の方法による統計情報の提示について検討した。
自動テキスト・マイニング分析法を用いて、1990~2015年にMEDLINEに登録された1,282万1,790編の抄録およびPubMed Central(PMC)に登録された84万3,884編の抄録と論文全文で報告されたp値のデータを抽出した。
PubMedの分類で臨床コアジャーナル(core clinical journals)に指定された151の英語専門誌と、臨床試験や無作為化対照比較試験、メタ解析、総説に分類された特定の論文におけるp値の報告の評価も行った。
無作為に選出した1,000編のMEDLINEの抄録で、p値と他の統計情報を手作業で確認した。また、経験的データ(empirical data)を報告している抄録のうち100編の論文の全文の検討も行った。
テキスト・マイニングにより、MEDLINEの160万8,736編の論文抄録から457万2,043の、PMCの38万5,393編の論文全文から343万8,299のp値が同定された。
p値だけでなく効果量なども記述すべき
抄録でのp値の報告は、1990年の7.3%から2014年には15.6%に増加した。2014年のp値の報告の割合は、151誌の臨床コアジャーナルの抄録(2万9,725編)が33.0%、メタ解析(5,620編)が35.7%、臨床試験(4,624編)が38.9%、無作為化対照比較試験(1万3,544編)が54.8%、総説(7万1,529編)は2.4%であった。
p値の分布は、抄録および全文の双方において、0.05および0.001以下に高度に集中しており、0.01への集中は相対的に低かった。また、最大のp値(統計学的有意差が最も大きいp値)は経時的にわずかに低くなり、最小のp値(有意差が最も小さいp値)もわずかに低下した。
MEDLINEの抄録とPMCの全文のp値のうち、96%が1つ以上のp<0.05を報告しており、PMCの全文ではこの割合が経時的にほぼ一定していた。
手作業で検討した1,000編の抄録のうち、796編が経験的データを報告した論文のものであった。このうち抄録にp値が記述されていたのは15.7%(125/796編、95%信頼区間:13.2~18.4)で、信頼区間の記述は2.3%(18/796編、1.3~3.6)、ベイズ因子は0%(0/796件、0~0.5)、効果量(effect size)は13.9%(111/796件、11.6~16.5)、p値が推定できる他の情報は12.4%(99/796件、10.2~14.9)、有意差に関する定性的記述は18.1%(181/1,000件、15.8~20.6)であり、効果量と信頼区間の双方を1つ以上報告している抄録は1.8%(14/796件、1.0~2.9)しかなかった。
99編の論文全文の手作業による検討では、55編がp値を報告しており、4編がすべての効果量の信頼区間を記載していた。ベイズ法を用いた論文はなく、1編が偽発見率(false-discovery rate:FDR)を使用し、3編がサンプルサイズ/検出力を算定しており、5編が主要アウトカムを規定していた。
著者は、「25年間で、p値を報告したMEDLINEの抄録は経時的に増加しており、p値を記載した抄録、論文のほとんどが統計学的に有意差のある結果を報告していたが、信頼区間、ベイズ因子、効果量の記載のある論文はほとんどなかった」とまとめ、「p値を単独で記述するよりも、効果量や不確実性(uncertainty)の測定基準も論文に含めるべきである」としている。
(医学ライター 菅野 守)