人工知能は、放射線科専門医試験に合格できるのか?/BMJ

提供元:ケアネット

印刷ボタン

公開日:2023/01/16

 

 英国の放射線科医は、研修を修了する前にFRCR(Fellowship of the Royal College of Radiologists)試験に合格する必要がある。英国・Great Ormond Street Hospital for ChildrenのSusan C. Shelmerdine氏によると、人工知能(AI)が、この試験の3つの構成要素のうち迅速報告と呼ばれる試験に合格できるかを検討した「FRCR-AI試験」の結果、AIは人間と同様の厳しい基準で採点された場合は10回の模擬試験のいずれにも合格できなかったが、訓練を受けていないため読影不能な画像を除外すると、全体の平均正答率は79.5%で、10回中2回の模擬試験に合格したという。研究の詳細は、BMJ誌2022年12月21日号で報告された。

AIと放射線科医を比較する英国の診断精度研究

 研究グループは、1つのAI(Smarturgences v1.17.0、フランス・Milvue製)と、過去12ヵ月間にFRCR試験に合格した放射線科医26人を対象に、複数読影者による前向き診断精度研究を行った(筆頭著者は英国国立健康研究所[NIHR]の助成を受けた)。

 FRCR試験の迅速報告では、X線画像30枚が提示され、これを35分以内に読影し、27枚(90%)以上に正答すると合格とされる。試験に参加した放射線科医は、2022年5月1日~31日の期間に、同様の方式で10回の模擬試験を受けた。AIにも、10回のFRCR模擬試験として300枚の匿名化されたX線画像が提供された。

 AIモデルは、事前に60万枚以上の胸部および筋骨格系のX線画像のデータセットで、7つの主要な病変(骨折、胸水、肺陰影、関節液貯留、肺結節、気胸、関節脱臼)を検出するよう訓練された。

 AIと放射線科医で、FRCR試験迅速報告模擬試験の合格率のほか、感度、特異度、陽性および陰性的中率が算出され、比較された。

ピットフォールの多くは、筋骨格系の画像

 放射線科医26人のうち16人(62%)が女性、19人(73%)が年齢31~40歳で、16人(62%)が過去3ヵ月以内、8人(31%)が6ヵ月以内、2人は12ヵ月以内に合格していた。15人(58%)は1回目、9人(35%)は2回目、2人は3回目の試験での合格だった。

 読影不能な画像を含む場合、AIは10回の模擬試験のうち1回も合格できなかったが、AIには読影不能と考えられる画像を除外した場合は2回(平均正答率:79.5%[95%信頼区間[CI]:74.1~84.3])、正常所見として読影不能な画像を含む場合は1回合格した。

 26人のうち、10回の模擬試験すべてに合格した放射線科医はおらず、最も成績が良かったのは9回(1人)、最も悪かったのは1回(3人)で、10人(38%)は5回以上合格した。平均合格率は10回中4回(平均正答率:84.8%[76.1~91.9])だった。

 AIでは、診断の感度が83.6%(95%CI:76.2~89.4)、特異度は75.2%(95%CI:66.7~82.5)であったのに対し、放射線科医全体の要約推定値はそれぞれ84.1%(81.0~87.0)および87.3%(85.0~89.3)であった。

 300枚のX線画像のうち90%超の放射線科医が正しく読影した148枚において、AIは14枚(9%)を誤って読影した。この14枚の誤読のうち、4枚(29%)は偽陰性診断、10枚(71%)は偽陽性診断で、10枚(71%)は筋骨格系の画像で発生していた。

 また、50%以上の放射線科医が誤読したX線画像20枚のうち、AIは10枚(50%)を正確に読影した。残りの、AIも誤読した10枚(偽陰性9枚、偽陽性1枚)では、8枚(80%)が筋骨格系所見の見逃しだった。すなわち、AI診断のピットフォールの多くは、胸部よりも筋骨格系のX線画像の読影に関するものであった。

 著者は、「筋骨格系の疾患の症例に焦点を当て、現時点で[読影不能]とされる軸骨格と腹部のX線画像の読影を学習することで、AIのX線画像読影技能は改善する可能性がある」と指摘している。

(医学ライター 菅野 守)