20.
ペーパーミル(論文工場)は、がん研究論文において深刻かつ拡大する問題であり、低インパクトファクターの雑誌に限った問題ではないことが、フランス・L'Institut AgroのBaptiste Scancar氏らが行った機械学習モデルの構築・検証およびスクリーニングの結果で示された。著者は、「ペーパーミルの問題に対処するためには、関係者全体でこの課題を共有し行動を起こすことが不可欠である」とまとめている。BMJ誌2026年1月29日号掲載の報告。ペーパーミル製論文2,202報を用いて機械学習モデルを開発 研究グループは、撤回論文のデータベースであるRetraction Watchにおいて「ペーパーミル」と分類された撤回済み論文2,202報を用い、論文タイトルと抄録を入力したBERT(bidirectional encoder representations from transformers)ベースのテキスト分類モデルを学習させた。内部検証の後、画像整合性に関する専門家が収集した独立データによる外部検証を実施し、PubMedに収載された1999~2024年のがん研究原著論文264万7,471報を対象にスクリーニングを行った。 主要アウトカムはモデルの分類精度で、撤回されたペーパーミル出版物と類似すると判定された論文(フラグ付き論文)の割合とその95%信頼区間(CI)を評価した。また、時系列・国別・出版社別・がん種別・研究領域別の分布、ならびに高インパクトファクターの雑誌(上位10%)における割合も調べた。1999~2024年のがん研究原著論文の約10%がペーパーミル、最も多いのは中国 モデルの精度は内部検証で0.91、外部検証で0.93、感度はいずれも0.87、特異度はそれぞれ0.96、0.99を達成した。 がん研究原著論文に適用したところ、264万7,471報中26万1,245報がフラグ付けされ、この数は全がん研究原著論文の9.87%(95%CI:9.83~9.90)に相当した。 フラグ付き論文数は、1999~2024年に全体およびインパクトファクター上位10%の雑誌の両方で著明かつ急速に増加し、年間フラグ付き論文数は1999~2022年に指数関数的増加傾向を示した。フラグ付き論文の割合は2000年代初頭には約1%で推移したが、2020年代初頭までに年間がん研究論文総数の15%超(2万6,457/17万1,656報)まで増加した。 国別の解析では、フラグ付き論文の割合が最も高かったのは中国で、同国のがん研究論文全体の36%を占めた(17万7,907/49万7,672報)。 出版社別の解析では、フラグ付き論文の割合が最も高かったのは、Verduci Editore発行のEuropean Review for Medical and Pharmacological Sciences誌で約67%(2,834/4,199報)に上った。大手出版社(Springer Nature、Elsevier、John Wiley and Sonsなど)はフラグ付き論文の割合は比較的低い(約10%)ものの、絶対数は多かった。 がん種別・研究領域別では、フラグ付き論文の割合は胃がんが最も多く(22%)、骨がん(21%)、肝がん(20%)の順で続き、研究領域としてはがん生物学・基礎研究分野が13%超と最も高く、治療開発・評価ならびに診断・予後領域で10%を超えていた。