咨詢AI醫(yī)生還不如上網(wǎng)搜索靠譜？《自然-醫(yī)學(xué)》：對(duì)普通人來(lái)說(shuō)，確實(shí)如此

澎湃新聞?dòng)浾?季敬杰

2026-02-11 08:36

來(lái)源：澎湃新聞

? 生命科學(xué) >

聽(tīng)全文

·AI本身的能力與人類使用這種能力的效率之間存在巨大鴻溝。

AI醫(yī)生是否真的可靠？其性能能否僅靠增加算力來(lái)提升？2月10日發(fā)表在《自然-醫(yī)學(xué)》上的一項(xiàng)新研究顯示，對(duì)于普通人來(lái)說(shuō)，答案是否定的。

在該研究中，來(lái)自牛津大學(xué)等機(jī)構(gòu)的研究人員招募了1298名英國(guó)參與者，讓他們?cè)?0個(gè)醫(yī)學(xué)場(chǎng)景中做出判斷——比如突然劇烈頭痛應(yīng)該去哪個(gè)醫(yī)療機(jī)構(gòu)就診，以及可能患的是什么疾病。參與者被隨機(jī)分配到四個(gè)實(shí)驗(yàn)組：三個(gè)治療組分別使用GPT-4o、Llama 3或Command R+三種不同的大語(yǔ)言模型來(lái)輔助決策，而對(duì)照組則使用他們平時(shí)在家會(huì)用的任何方法，主要是互聯(lián)網(wǎng)搜索。

當(dāng)研究人員直接將醫(yī)學(xué)場(chǎng)景的信息輸入給這些大語(yǔ)言模型時(shí)，它們的表現(xiàn)非常好。GPT-4o能在94.7%的情況下指出至少一個(gè)相關(guān)的醫(yī)學(xué)診斷，在64.7%的情況下給出正確的醫(yī)療建議。Llama 3和Command R+的表現(xiàn)也大同小異。說(shuō)明它們確實(shí)掌握了大量的醫(yī)學(xué)信息。

然而，當(dāng)普通人使用這些相同的模型時(shí)，情況就不一樣了。使用大語(yǔ)言模型的參與者在識(shí)別相關(guān)醫(yī)學(xué)條件方面的表現(xiàn)變得更差，只有不到34.5%的準(zhǔn)確率。他們?cè)谂袛噌t(yī)療優(yōu)先級(jí)方面的表現(xiàn)也沒(méi)有超過(guò)對(duì)照組，兩者的準(zhǔn)確率均為44%左右。

換句話說(shuō)，讓患者自己咨詢AI醫(yī)生，結(jié)果可能還不如上網(wǎng)搜索。

這一結(jié)果表明AI本身的能力與人類使用這種能力的效率之間存在巨大鴻溝。研究團(tuán)隊(duì)分析了參與者與大語(yǔ)言模型之間的對(duì)話記錄，發(fā)現(xiàn)了一系列系統(tǒng)性的問(wèn)題。首先是信息傳遞的不通暢。大語(yǔ)言模型在對(duì)話中提到相關(guān)癥狀的比例大約在65%-73%之間，遠(yuǎn)低于它們單獨(dú)工作時(shí)的表現(xiàn)，這說(shuō)明人類患者往往沒(méi)有向AI系統(tǒng)提供足夠的信息。

超過(guò)一半的患者在最初描述癥狀時(shí)沒(méi)有提供完整的信息。他們可能只說(shuō)“頭很疼”，而沒(méi)有提到“突然發(fā)作”或“伴有頸部僵硬”這樣的關(guān)鍵癥狀。有時(shí)候，患者會(huì)在AI的提問(wèn)下逐步補(bǔ)充信息，但有時(shí)候他們根本不補(bǔ)充。

作者們指出，與之相比，醫(yī)生之所以能診斷患者，不僅是因?yàn)樗麄冎R(shí)豐富，更因?yàn)樗麄冎酪獑?wèn)什么問(wèn)題。一個(gè)非專業(yè)的患者可能不知道哪些癥狀是診斷的關(guān)鍵。

研究者們還發(fā)現(xiàn)，即使AI系統(tǒng)給出了正確建議，人類也不一定會(huì)采納。參與者平均列出1.33個(gè)醫(yī)學(xué)診斷作為他們的最終答案，而它們的準(zhǔn)確率僅為38.7%。相比之下，大語(yǔ)言模型在整個(gè)對(duì)話中提及的所有診斷的正確率為34%。這意味著人類沒(méi)有成功地從AI生成的多個(gè)建議中篩選出最好的那一個(gè)。

除了溝通不暢和判斷失誤，研究還發(fā)現(xiàn)了AI本身的一些問(wèn)題。在一些情況下，大語(yǔ)言模型提供了正確的初始診斷，但當(dāng)患者添加更多細(xì)節(jié)后，它反而改口提出了錯(cuò)誤的建議。在另一些極端案例中，同樣的AI對(duì)相似的癥狀描述給出了完全相反的建議。

比如，兩名患者都描述了蛛網(wǎng)膜下腔出血的癥狀，包括突然的劇烈頭痛、頸部僵硬和畏光。但AI告訴其中一個(gè)患者“躺在黑暗的房間里”休息，而另一個(gè)則建議“立即呼救護(hù)車”。

在人類醫(yī)生的訓(xùn)練邏輯中，通過(guò)資格考試是上崗的第一步。但該研究的作者們指出，對(duì)于AI來(lái)說(shuō)，考試中的成績(jī)并不與它們?cè)诂F(xiàn)實(shí)中表現(xiàn)直接相關(guān)。研究者們從醫(yī)學(xué)執(zhí)照考試題庫(kù)中選出了與上述醫(yī)療場(chǎng)景相關(guān)的236道選擇題讓AI做，準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于在真實(shí)互動(dòng)中的表現(xiàn)。在一些場(chǎng)景中，AI做題的正確率高于80%，而在患者實(shí)驗(yàn)中面對(duì)相同問(wèn)題，準(zhǔn)確率卻低于20%。

研究團(tuán)隊(duì)還測(cè)試了用AI分別模擬患者和醫(yī)生進(jìn)行對(duì)話是否能反映真實(shí)情況。這是一種在不少研究中很流行的基準(zhǔn)測(cè)試，不少人認(rèn)為其結(jié)果應(yīng)該比單純的選擇題更能反映真實(shí)互動(dòng)。但該研究的結(jié)果顯示，模擬患者的表現(xiàn)不僅總體上優(yōu)于真實(shí)用戶，而且這種優(yōu)勢(shì)與真實(shí)用戶的表現(xiàn)幾乎沒(méi)有相關(guān)性。換句話說(shuō)，模擬互動(dòng)無(wú)法預(yù)測(cè)真實(shí)互動(dòng)是成功還是失敗。

研究者們認(rèn)為，兩個(gè)大語(yǔ)言模型之間的對(duì)話往往更加結(jié)構(gòu)化、信息傳遞更順暢，它們知道要問(wèn)什么，也知道如何有效地傳達(dá)醫(yī)學(xué)概念。而人類患者則帶來(lái)了真實(shí)世界的復(fù)雜性：焦慮、知識(shí)不足、對(duì)癥狀的不同理解，以及無(wú)法預(yù)測(cè)的信息共享模式。

這項(xiàng)研究觸及了AI醫(yī)療中的一個(gè)根本問(wèn)題——對(duì)于大語(yǔ)言模型來(lái)說(shuō)，醫(yī)學(xué)知識(shí)的廣泛性和準(zhǔn)確性并不是在真實(shí)醫(yī)療場(chǎng)景中成功的充分條件。真實(shí)世界的醫(yī)療互動(dòng)涉及復(fù)雜交互，無(wú)法通過(guò)傳統(tǒng)的醫(yī)學(xué)基準(zhǔn)測(cè)試來(lái)捕捉。

這些發(fā)現(xiàn)對(duì)那些正在期待AI醫(yī)療“革命”的人來(lái)說(shuō)是一個(gè)清醒的提示。大語(yǔ)言模型或許永遠(yuǎn)不會(huì)取代醫(yī)生的臨床判斷，但它們或許能在更加謹(jǐn)慎、透明的設(shè)計(jì)下，成為有用的決策輔助工具——前提是我們首先解決好人與機(jī)器之間的溝通問(wèn)題。

參考文獻(xiàn)：

Bean, A. M., Payne, R. E., Parsons, G., et al. Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nature Medicine (2026). https://doi.org/10.1038/s41591-025-04074-y

責(zé)任編輯：宦艷紅

圖片編輯：李晶昀

校對(duì)：姚易琪

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#AI醫(yī)療 #AI醫(yī)生