咨詢AI醫(yī)生還不如上網(wǎng)搜索靠譜？《自然-醫(yī)學(xué)》：對普通人來說，確實(shí)如此

澎湃新聞記者季敬杰

2026-02-11 08:36

來源：澎湃新聞

? 生命科學(xué) >

聽全文

·AI本身的能力與人類使用這種能力的效率之間存在巨大鴻溝。

AI醫(yī)生是否真的可靠？其性能能否僅靠增加算力來提升？2月10日發(fā)表在《自然-醫(yī)學(xué)》上的一項(xiàng)新研究顯示，對于普通人來說，答案是否定的。

在該研究中，來自牛津大學(xué)等機(jī)構(gòu)的研究人員招募了1298名英國參與者，讓他們在10個醫(yī)學(xué)場景中做出判斷——比如突然劇烈頭痛應(yīng)該去哪個醫(yī)療機(jī)構(gòu)就診，以及可能患的是什么疾病。參與者被隨機(jī)分配到四個實(shí)驗(yàn)組：三個治療組分別使用GPT-4o、Llama 3或Command R+三種不同的大語言模型來輔助決策，而對照組則使用他們平時在家會用的任何方法，主要是互聯(lián)網(wǎng)搜索。

當(dāng)研究人員直接將醫(yī)學(xué)場景的信息輸入給這些大語言模型時，它們的表現(xiàn)非常好。GPT-4o能在94.7%的情況下指出至少一個相關(guān)的醫(yī)學(xué)診斷，在64.7%的情況下給出正確的醫(yī)療建議。Llama 3和Command R+的表現(xiàn)也大同小異。說明它們確實(shí)掌握了大量的醫(yī)學(xué)信息。

然而，當(dāng)普通人使用這些相同的模型時，情況就不一樣了。使用大語言模型的參與者在識別相關(guān)醫(yī)學(xué)條件方面的表現(xiàn)變得更差，只有不到34.5%的準(zhǔn)確率。他們在判斷醫(yī)療優(yōu)先級方面的表現(xiàn)也沒有超過對照組，兩者的準(zhǔn)確率均為44%左右。

換句話說，讓患者自己咨詢AI醫(yī)生，結(jié)果可能還不如上網(wǎng)搜索。

這一結(jié)果表明AI本身的能力與人類使用這種能力的效率之間存在巨大鴻溝。研究團(tuán)隊分析了參與者與大語言模型之間的對話記錄，發(fā)現(xiàn)了一系列系統(tǒng)性的問題。首先是信息傳遞的不通暢。大語言模型在對話中提到相關(guān)癥狀的比例大約在65%-73%之間，遠(yuǎn)低于它們單獨(dú)工作時的表現(xiàn)，這說明人類患者往往沒有向AI系統(tǒng)提供足夠的信息。

超過一半的患者在最初描述癥狀時沒有提供完整的信息。他們可能只說“頭很疼”，而沒有提到“突然發(fā)作”或“伴有頸部僵硬”這樣的關(guān)鍵癥狀。有時候，患者會在AI的提問下逐步補(bǔ)充信息，但有時候他們根本不補(bǔ)充。

作者們指出，與之相比，醫(yī)生之所以能診斷患者，不僅是因?yàn)樗麄冎R豐富，更因?yàn)樗麄冎酪獑柺裁磫栴}。一個非專業(yè)的患者可能不知道哪些癥狀是診斷的關(guān)鍵。

研究者們還發(fā)現(xiàn)，即使AI系統(tǒng)給出了正確建議，人類也不一定會采納。參與者平均列出1.33個醫(yī)學(xué)診斷作為他們的最終答案，而它們的準(zhǔn)確率僅為38.7%。相比之下，大語言模型在整個對話中提及的所有診斷的正確率為34%。這意味著人類沒有成功地從AI生成的多個建議中篩選出最好的那一個。

除了溝通不暢和判斷失誤，研究還發(fā)現(xiàn)了AI本身的一些問題。在一些情況下，大語言模型提供了正確的初始診斷，但當(dāng)患者添加更多細(xì)節(jié)后，它反而改口提出了錯誤的建議。在另一些極端案例中，同樣的AI對相似的癥狀描述給出了完全相反的建議。

比如，兩名患者都描述了蛛網(wǎng)膜下腔出血的癥狀，包括突然的劇烈頭痛、頸部僵硬和畏光。但AI告訴其中一個患者“躺在黑暗的房間里”休息，而另一個則建議“立即呼救護(hù)車”。

在人類醫(yī)生的訓(xùn)練邏輯中，通過資格考試是上崗的第一步。但該研究的作者們指出，對于AI來說，考試中的成績并不與它們在現(xiàn)實(shí)中表現(xiàn)直接相關(guān)。研究者們從醫(yī)學(xué)執(zhí)照考試題庫中選出了與上述醫(yī)療場景相關(guān)的236道選擇題讓AI做，準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于在真實(shí)互動中的表現(xiàn)。在一些場景中，AI做題的正確率高于80%，而在患者實(shí)驗(yàn)中面對相同問題，準(zhǔn)確率卻低于20%。

研究團(tuán)隊還測試了用AI分別模擬患者和醫(yī)生進(jìn)行對話是否能反映真實(shí)情況。這是一種在不少研究中很流行的基準(zhǔn)測試，不少人認(rèn)為其結(jié)果應(yīng)該比單純的選擇題更能反映真實(shí)互動。但該研究的結(jié)果顯示，模擬患者的表現(xiàn)不僅總體上優(yōu)于真實(shí)用戶，而且這種優(yōu)勢與真實(shí)用戶的表現(xiàn)幾乎沒有相關(guān)性。換句話說，模擬互動無法預(yù)測真實(shí)互動是成功還是失敗。

研究者們認(rèn)為，兩個大語言模型之間的對話往往更加結(jié)構(gòu)化、信息傳遞更順暢，它們知道要問什么，也知道如何有效地傳達(dá)醫(yī)學(xué)概念。而人類患者則帶來了真實(shí)世界的復(fù)雜性：焦慮、知識不足、對癥狀的不同理解，以及無法預(yù)測的信息共享模式。

這項(xiàng)研究觸及了AI醫(yī)療中的一個根本問題——對于大語言模型來說，醫(yī)學(xué)知識的廣泛性和準(zhǔn)確性并不是在真實(shí)醫(yī)療場景中成功的充分條件。真實(shí)世界的醫(yī)療互動涉及復(fù)雜交互，無法通過傳統(tǒng)的醫(yī)學(xué)基準(zhǔn)測試來捕捉。

這些發(fā)現(xiàn)對那些正在期待AI醫(yī)療“革命”的人來說是一個清醒的提示。大語言模型或許永遠(yuǎn)不會取代醫(yī)生的臨床判斷，但它們或許能在更加謹(jǐn)慎、透明的設(shè)計下，成為有用的決策輔助工具——前提是我們首先解決好人與機(jī)器之間的溝通問題。

參考文獻(xiàn)：

Bean, A. M., Payne, R. E., Parsons, G., et al. Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nature Medicine (2026). https://doi.org/10.1038/s41591-025-04074-y

責(zé)任編輯：宦艷紅

圖片編輯：李晶昀

校對：姚易琪

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#AI醫(yī)療 #AI醫(yī)生