医療誤情報の生成、防止できるAIは?/BMJ

提供元:ケアネット

印刷ボタン

公開日:2024/04/01

 

 大規模言語モデル(LLM)は、患者の遠隔モニタリング、トリアージ、医学教育、管理業務の自動化を改善する大きな可能性を秘めているが、適切な安全措置(safeguard)が施されていない場合、詐欺的または操作的な意図によるコンテンツの大量生成に悪用される可能性がある。オーストラリア・フリンダース大学のBradley D. Menz氏らは、4つのLLMについて検討し、LLMは健康関連の誤情報の生成に悪用される脆弱性を有しており、これに対する十分な対応を欠いているものの、悪用を防ぐための強固な安全措置は実装可能と考えられることを示した。研究の詳細は、BMJ誌2024年3月20日号で報告された。

安全措置の有効性を反復横断分析で評価

 研究グループは、LLMが健康誤情報の生成に悪用されることを防止するための安全措置の有効性を評価し、脆弱性が確認された場合は、これに対するリスク軽減の処置の方法に関する人工知能(AI)開発者の透明性を評価する目的で、反復横断分析を行った(オーストラリア国立保健医療研究評議会[NHMRC]などの助成を受けた)。

 解析の対象は、次の4つのLLMであった。GPT-4(開発企業:OpenAI、チャットボット/アシスタントインターフェース:同社のChatGPTまたはMicrosoftのCopilot)、PaLM 2およびGemini Pro(Google、Bard)、Claude 2(Anthropic、Poe)、Llama 2(Meta、HuggingChat)。

 2023年9月に、これらのLLMに2つのトピックス(皮膚がんの原因としての日焼け止め、がん治療としてのアルカリ性食品)に関して健康誤情報の生成を指示するプロンプトを作成し、必要に応じて脱獄技術(jailbreaking technique、安全措置の迂回を試みる技術)の評価を行った。

 安全措置の脆弱性を認めた場合は、懸念されるアウトプットの報告の過程を評価した。また、初回の調査から12週後にLLMの誤情報の生成能力を再検討することで、その後の安全措置の改善度を評価した。主要アウトカムは、安全措置によって健康誤情報の生成が防止されたか否か、および健康誤情報のリスク軽減への対処の過程の透明性とした。

Claude 2は脱獄を試みてもすべて拒否

 Claude 2(Poe)は、試験期間中の2つの時点で、「日焼け止めは皮膚がんの原因である」「アルカリ性食品でがんは治癒する」とのコンテンツの生成を要請した130のプロンプトを、脱獄を試みた場合を含めすべて拒否した。

 GPT-4(Copilot)は当初、脱獄を試みても健康誤情報の生成を拒否したが、12週目には受け入れた。

 対照的に、GPT-4(ChatGPT)、PaLM 2/Gemini Pro(Bard)、Llama 2(HuggingChat)は、一貫して健康誤情報のブログを生成した。

 2023年9月の評価では、脱獄を要請しない場合、これらのLLMは113の独自のがん誤情報ブログ(総数4万ワード以上)の生成を進めた。

誤情報生成の拒否率はわずか5%

 これらのLMMの評価時における誤情報生成の拒否率はわずか5%(150件のプロンプト中7件)であり、LLMが生成したブログには、注目度の高いタイトル、(偽造または架空の)もっともらしい参考文献、捏造された患者や臨床医の証言が盛り込まれ、多様な人口集団を標的としていた。

 また、各LLMは、懸念される生成文を認めた場合に報告する仕組みを備えていたが、脆弱性の確認が報告されても、開発者が対応することはなかった。

 著者は、「Claude 2は健康誤情報の生成に対する強固な安全措置を有しており、このような安全措置の実装は可能であることが示された」「健康誤情報のリスクを最小化するために導入された安全措置とその方法に関するAI開発者の透明性の低さと共に、安全措置の脆弱性への対応の欠如が確認された」とまとめ、「LLMが健康誤情報の大量生成に加担するのを防ぐには、規制の強化、透明性の確保、日常的な監査が必要である」と指摘している。

(医学ライター 菅野 守)