欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

  • +1

咨詢AI醫(yī)生還不如上網(wǎng)搜索靠譜?《自然-醫(yī)學(xué)》:對普通人來說,確實(shí)如此

澎湃新聞記者 季敬杰
2026-02-11 08:36
來源:澎湃新聞
? 生命科學(xué) >
聽全文
字號

·AI本身的能力與人類使用這種能力的效率之間存在巨大鴻溝。

AI醫(yī)生是否真的可靠?其性能能否僅靠增加算力來提升?2月10日發(fā)表在《自然-醫(yī)學(xué)》上的一項(xiàng)新研究顯示,對于普通人來說,答案是否定的。

在該研究中,來自牛津大學(xué)等機(jī)構(gòu)的研究人員招募了1298名英國參與者,讓他們在10個醫(yī)學(xué)場景中做出判斷——比如突然劇烈頭痛應(yīng)該去哪個醫(yī)療機(jī)構(gòu)就診,以及可能患的是什么疾病。參與者被隨機(jī)分配到四個實(shí)驗(yàn)組:三個治療組分別使用GPT-4o、Llama 3或Command R+三種不同的大語言模型來輔助決策,而對照組則使用他們平時在家會用的任何方法,主要是互聯(lián)網(wǎng)搜索。

當(dāng)研究人員直接將醫(yī)學(xué)場景的信息輸入給這些大語言模型時,它們的表現(xiàn)非常好。GPT-4o能在94.7%的情況下指出至少一個相關(guān)的醫(yī)學(xué)診斷,在64.7%的情況下給出正確的醫(yī)療建議。Llama 3和Command R+的表現(xiàn)也大同小異。說明它們確實(shí)掌握了大量的醫(yī)學(xué)信息。

然而,當(dāng)普通人使用這些相同的模型時,情況就不一樣了。使用大語言模型的參與者在識別相關(guān)醫(yī)學(xué)條件方面的表現(xiàn)變得更差,只有不到34.5%的準(zhǔn)確率。他們在判斷醫(yī)療優(yōu)先級方面的表現(xiàn)也沒有超過對照組,兩者的準(zhǔn)確率均為44%左右。

換句話說,讓患者自己咨詢AI醫(yī)生,結(jié)果可能還不如上網(wǎng)搜索。

這一結(jié)果表明AI本身的能力與人類使用這種能力的效率之間存在巨大鴻溝。研究團(tuán)隊分析了參與者與大語言模型之間的對話記錄,發(fā)現(xiàn)了一系列系統(tǒng)性的問題。首先是信息傳遞的不通暢。大語言模型在對話中提到相關(guān)癥狀的比例大約在65%-73%之間,遠(yuǎn)低于它們單獨(dú)工作時的表現(xiàn),這說明人類患者往往沒有向AI系統(tǒng)提供足夠的信息。

超過一半的患者在最初描述癥狀時沒有提供完整的信息。他們可能只說“頭很疼”,而沒有提到“突然發(fā)作”或“伴有頸部僵硬”這樣的關(guān)鍵癥狀。有時候,患者會在AI的提問下逐步補(bǔ)充信息,但有時候他們根本不補(bǔ)充。

作者們指出,與之相比,醫(yī)生之所以能診斷患者,不僅是因?yàn)樗麄冎R豐富,更因?yàn)樗麄冎酪獑柺裁磫栴}。一個非專業(yè)的患者可能不知道哪些癥狀是診斷的關(guān)鍵。

研究者們還發(fā)現(xiàn),即使AI系統(tǒng)給出了正確建議,人類也不一定會采納。參與者平均列出1.33個醫(yī)學(xué)診斷作為他們的最終答案,而它們的準(zhǔn)確率僅為38.7%。相比之下,大語言模型在整個對話中提及的所有診斷的正確率為34%。這意味著人類沒有成功地從AI生成的多個建議中篩選出最好的那一個。

除了溝通不暢和判斷失誤,研究還發(fā)現(xiàn)了AI本身的一些問題。在一些情況下,大語言模型提供了正確的初始診斷,但當(dāng)患者添加更多細(xì)節(jié)后,它反而改口提出了錯誤的建議。在另一些極端案例中,同樣的AI對相似的癥狀描述給出了完全相反的建議。

比如,兩名患者都描述了蛛網(wǎng)膜下腔出血的癥狀,包括突然的劇烈頭痛、頸部僵硬和畏光。但AI告訴其中一個患者“躺在黑暗的房間里”休息,而另一個則建議“立即呼救護(hù)車”。

在人類醫(yī)生的訓(xùn)練邏輯中,通過資格考試是上崗的第一步。但該研究的作者們指出,對于AI來說,考試中的成績并不與它們在現(xiàn)實(shí)中表現(xiàn)直接相關(guān)。研究者們從醫(yī)學(xué)執(zhí)照考試題庫中選出了與上述醫(yī)療場景相關(guān)的236道選擇題讓AI做,準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于在真實(shí)互動中的表現(xiàn)。在一些場景中,AI做題的正確率高于80%,而在患者實(shí)驗(yàn)中面對相同問題,準(zhǔn)確率卻低于20%。

研究團(tuán)隊還測試了用AI分別模擬患者和醫(yī)生進(jìn)行對話是否能反映真實(shí)情況。這是一種在不少研究中很流行的基準(zhǔn)測試,不少人認(rèn)為其結(jié)果應(yīng)該比單純的選擇題更能反映真實(shí)互動。但該研究的結(jié)果顯示,模擬患者的表現(xiàn)不僅總體上優(yōu)于真實(shí)用戶,而且這種優(yōu)勢與真實(shí)用戶的表現(xiàn)幾乎沒有相關(guān)性。換句話說,模擬互動無法預(yù)測真實(shí)互動是成功還是失敗。

研究者們認(rèn)為,兩個大語言模型之間的對話往往更加結(jié)構(gòu)化、信息傳遞更順暢,它們知道要問什么,也知道如何有效地傳達(dá)醫(yī)學(xué)概念。而人類患者則帶來了真實(shí)世界的復(fù)雜性:焦慮、知識不足、對癥狀的不同理解,以及無法預(yù)測的信息共享模式。

這項(xiàng)研究觸及了AI醫(yī)療中的一個根本問題——對于大語言模型來說,醫(yī)學(xué)知識的廣泛性和準(zhǔn)確性并不是在真實(shí)醫(yī)療場景中成功的充分條件。真實(shí)世界的醫(yī)療互動涉及復(fù)雜交互,無法通過傳統(tǒng)的醫(yī)學(xué)基準(zhǔn)測試來捕捉。

這些發(fā)現(xiàn)對那些正在期待AI醫(yī)療“革命”的人來說是一個清醒的提示。大語言模型或許永遠(yuǎn)不會取代醫(yī)生的臨床判斷,但它們或許能在更加謹(jǐn)慎、透明的設(shè)計下,成為有用的決策輔助工具——前提是我們首先解決好人與機(jī)器之間的溝通問題。

參考文獻(xiàn):

Bean, A. M., Payne, R. E., Parsons, G., et al. Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nature Medicine (2026). https://doi.org/10.1038/s41591-025-04074-y

    責(zé)任編輯:宦艷紅
    圖片編輯:李晶昀
    校對:姚易琪
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司