ChatGPT-4の眼関連の知識と推論能力は眼科専門医と同等

提供元：HealthDay News

公開日：2024/09/16

　人工知能（AI）の大規模言語モデル（LLM）の一つである「ChatGPT-4（以下、GPT-4）」は、眼関連の知識と臨床推論力という点で眼科専門医と同等レベルに達しつつあることを示すデータが報告された。英オックスフォード大学のArun James Thirunavukarasu氏らの研究によるもので、詳細は「PLOS Digital Health」に4月17日掲載された。

　LLMは近年、目覚ましく進歩してきており、一部では臨床応用の試みも始まっている。眼科領域でもGPT-4の有用性を示唆する研究結果が既に存在するが、それらの研究では、そのようなGPT-4の知識の豊富さが臨床能力に直結するかという点が検討されておらず、かつ、検証に用いられた課題がLLMの開発段階で既にネット環境に存在しているという“contamination”（汚染）によって、能力を正しく評価できていない可能性が指摘される。そこでThirunavukarasu氏らは、英国眼科専門医フェローシップ（FRCOphth）試験の予想問題を利用した検証を行った。FRCOphthの試験の出題内容は眼科専門医の実践的スキルにとって重要であり、かつそれらの情報がネット環境に公開されていないため、LLMの機械学習に利用されにくい。

　この研究は、2023年4月29日～5月10日に行われた。まず、GPT-3.5とGPT-4を347項目の質問に対する回答で比較したところ、正答率は前者の48.4％に対し後者は61.7％であり、有意に優れていることが確認された（P＜0.01）。次に、質問項目数を模擬テストに利用された87問に絞り込み、GPT-3.5とGPT-4、およびChatGPT以外の2種類のLLM（LLaMA、PaLM 2）、5人の熟練した眼科医、眼科研修プログラム参加中の研修医3人、眼科研修を受けていない研修医2人で正答率を比較した。

　まずLLMの結果に着目すると、GPT-4の正答率は69％であり、これはGPT-3.5の48％やLLaMAの32％、PaLM 2の56％よりも高値であって、GPT-3.5やLLaMAとの間には有意差が存在した（いずれもP＜0.01）。PaLM 2との差は有意水準未満だった（P＝0.09）。

　一方、熟練した眼科医5人の正答率は中央値76％（範囲64～90）であり、GPT-4の成績はこの5人中3人と同等であって、2人より劣っていた。眼科研修医3人の正答率は59％（57～63）であり、GPT-4の成績はこの3人全員と同等だった。眼科研修を受けていない研修医2人の正答率は43％（41～44）であり、GPT-4の成績はこの両人に対して優れていた。

　なお、テストの質問のタイプや内容別にLLMと人（医師）の回答とを比較した場合に、正答率が顕著に異なるような質問は特定されず（P＞0.05）、LLMの知識や推論能力のレベルは眼科領域全般にわたり一定の水準に達していると考えられた。このほか、GPT-3.5とGPT-4について、それらの回答がどちらのものかという情報をマスクした上で、5人の眼科専門医が内容を評価した結果、5人全員がGPT-4の回答を高く評価した。

　Thirunavukarasu氏らは、「LLMの眼科領域の知識と推論能力は専門医レベルに近づいている。眼科の専門医療へのアクセスが限られているような状況では、LLMの回答が役に立つのではないか。ただし、本格的な臨床応用の可能性を探るには、さらなる研究が求められる」と述べている。

　なお、1人の著者は、網膜疾患を検出するためのディープラーニングシステムに関する特許を保有している。