- +1
咨詢AI醫(yī)生還不如上網(wǎng)搜索靠譜?《自然-醫(yī)學(xué)》:對(duì)普通人來(lái)說(shuō),確實(shí)如此
·AI本身的能力與人類使用這種能力的效率之間存在巨大鴻溝。
AI醫(yī)生是否真的可靠?其性能能否僅靠增加算力來(lái)提升?2月10日發(fā)表在《自然-醫(yī)學(xué)》上的一項(xiàng)新研究顯示,對(duì)于普通人來(lái)說(shuō),答案是否定的。
在該研究中,來(lái)自牛津大學(xué)等機(jī)構(gòu)的研究人員招募了1298名英國(guó)參與者,讓他們?cè)?0個(gè)醫(yī)學(xué)場(chǎng)景中做出判斷——比如突然劇烈頭痛應(yīng)該去哪個(gè)醫(yī)療機(jī)構(gòu)就診,以及可能患的是什么疾病。參與者被隨機(jī)分配到四個(gè)實(shí)驗(yàn)組:三個(gè)治療組分別使用GPT-4o、Llama 3或Command R+三種不同的大語(yǔ)言模型來(lái)輔助決策,而對(duì)照組則使用他們平時(shí)在家會(huì)用的任何方法,主要是互聯(lián)網(wǎng)搜索。
當(dāng)研究人員直接將醫(yī)學(xué)場(chǎng)景的信息輸入給這些大語(yǔ)言模型時(shí),它們的表現(xiàn)非常好。GPT-4o能在94.7%的情況下指出至少一個(gè)相關(guān)的醫(yī)學(xué)診斷,在64.7%的情況下給出正確的醫(yī)療建議。Llama 3和Command R+的表現(xiàn)也大同小異。說(shuō)明它們確實(shí)掌握了大量的醫(yī)學(xué)信息。
然而,當(dāng)普通人使用這些相同的模型時(shí),情況就不一樣了。使用大語(yǔ)言模型的參與者在識(shí)別相關(guān)醫(yī)學(xué)條件方面的表現(xiàn)變得更差,只有不到34.5%的準(zhǔn)確率。他們?cè)谂袛噌t(yī)療優(yōu)先級(jí)方面的表現(xiàn)也沒(méi)有超過(guò)對(duì)照組,兩者的準(zhǔn)確率均為44%左右。
換句話說(shuō),讓患者自己咨詢AI醫(yī)生,結(jié)果可能還不如上網(wǎng)搜索。
這一結(jié)果表明AI本身的能力與人類使用這種能力的效率之間存在巨大鴻溝。研究團(tuán)隊(duì)分析了參與者與大語(yǔ)言模型之間的對(duì)話記錄,發(fā)現(xiàn)了一系列系統(tǒng)性的問(wèn)題。首先是信息傳遞的不通暢。大語(yǔ)言模型在對(duì)話中提到相關(guān)癥狀的比例大約在65%-73%之間,遠(yuǎn)低于它們單獨(dú)工作時(shí)的表現(xiàn),這說(shuō)明人類患者往往沒(méi)有向AI系統(tǒng)提供足夠的信息。
超過(guò)一半的患者在最初描述癥狀時(shí)沒(méi)有提供完整的信息。他們可能只說(shuō)“頭很疼”,而沒(méi)有提到“突然發(fā)作”或“伴有頸部僵硬”這樣的關(guān)鍵癥狀。有時(shí)候,患者會(huì)在AI的提問(wèn)下逐步補(bǔ)充信息,但有時(shí)候他們根本不補(bǔ)充。
作者們指出,與之相比,醫(yī)生之所以能診斷患者,不僅是因?yàn)樗麄冎R(shí)豐富,更因?yàn)樗麄冎酪獑?wèn)什么問(wèn)題。一個(gè)非專業(yè)的患者可能不知道哪些癥狀是診斷的關(guān)鍵。
研究者們還發(fā)現(xiàn),即使AI系統(tǒng)給出了正確建議,人類也不一定會(huì)采納。參與者平均列出1.33個(gè)醫(yī)學(xué)診斷作為他們的最終答案,而它們的準(zhǔn)確率僅為38.7%。相比之下,大語(yǔ)言模型在整個(gè)對(duì)話中提及的所有診斷的正確率為34%。這意味著人類沒(méi)有成功地從AI生成的多個(gè)建議中篩選出最好的那一個(gè)。
除了溝通不暢和判斷失誤,研究還發(fā)現(xiàn)了AI本身的一些問(wèn)題。在一些情況下,大語(yǔ)言模型提供了正確的初始診斷,但當(dāng)患者添加更多細(xì)節(jié)后,它反而改口提出了錯(cuò)誤的建議。在另一些極端案例中,同樣的AI對(duì)相似的癥狀描述給出了完全相反的建議。
比如,兩名患者都描述了蛛網(wǎng)膜下腔出血的癥狀,包括突然的劇烈頭痛、頸部僵硬和畏光。但AI告訴其中一個(gè)患者“躺在黑暗的房間里”休息,而另一個(gè)則建議“立即呼救護(hù)車”。
在人類醫(yī)生的訓(xùn)練邏輯中,通過(guò)資格考試是上崗的第一步。但該研究的作者們指出,對(duì)于AI來(lái)說(shuō),考試中的成績(jī)并不與它們?cè)诂F(xiàn)實(shí)中表現(xiàn)直接相關(guān)。研究者們從醫(yī)學(xué)執(zhí)照考試題庫(kù)中選出了與上述醫(yī)療場(chǎng)景相關(guān)的236道選擇題讓AI做,準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于在真實(shí)互動(dòng)中的表現(xiàn)。在一些場(chǎng)景中,AI做題的正確率高于80%,而在患者實(shí)驗(yàn)中面對(duì)相同問(wèn)題,準(zhǔn)確率卻低于20%。
研究團(tuán)隊(duì)還測(cè)試了用AI分別模擬患者和醫(yī)生進(jìn)行對(duì)話是否能反映真實(shí)情況。這是一種在不少研究中很流行的基準(zhǔn)測(cè)試,不少人認(rèn)為其結(jié)果應(yīng)該比單純的選擇題更能反映真實(shí)互動(dòng)。但該研究的結(jié)果顯示,模擬患者的表現(xiàn)不僅總體上優(yōu)于真實(shí)用戶,而且這種優(yōu)勢(shì)與真實(shí)用戶的表現(xiàn)幾乎沒(méi)有相關(guān)性。換句話說(shuō),模擬互動(dòng)無(wú)法預(yù)測(cè)真實(shí)互動(dòng)是成功還是失敗。
研究者們認(rèn)為,兩個(gè)大語(yǔ)言模型之間的對(duì)話往往更加結(jié)構(gòu)化、信息傳遞更順暢,它們知道要問(wèn)什么,也知道如何有效地傳達(dá)醫(yī)學(xué)概念。而人類患者則帶來(lái)了真實(shí)世界的復(fù)雜性:焦慮、知識(shí)不足、對(duì)癥狀的不同理解,以及無(wú)法預(yù)測(cè)的信息共享模式。
這項(xiàng)研究觸及了AI醫(yī)療中的一個(gè)根本問(wèn)題——對(duì)于大語(yǔ)言模型來(lái)說(shuō),醫(yī)學(xué)知識(shí)的廣泛性和準(zhǔn)確性并不是在真實(shí)醫(yī)療場(chǎng)景中成功的充分條件。真實(shí)世界的醫(yī)療互動(dòng)涉及復(fù)雜交互,無(wú)法通過(guò)傳統(tǒng)的醫(yī)學(xué)基準(zhǔn)測(cè)試來(lái)捕捉。
這些發(fā)現(xiàn)對(duì)那些正在期待AI醫(yī)療“革命”的人來(lái)說(shuō)是一個(gè)清醒的提示。大語(yǔ)言模型或許永遠(yuǎn)不會(huì)取代醫(yī)生的臨床判斷,但它們或許能在更加謹(jǐn)慎、透明的設(shè)計(jì)下,成為有用的決策輔助工具——前提是我們首先解決好人與機(jī)器之間的溝通問(wèn)題。
參考文獻(xiàn):
Bean, A. M., Payne, R. E., Parsons, G., et al. Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nature Medicine (2026). https://doi.org/10.1038/s41591-025-04074-y





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




