欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

  • +1

GPT-5離“神級(jí)AI”還有多遠(yuǎn)?

2025-08-09 17:22
來源:澎湃新聞·澎湃號(hào)·湃客
字號(hào)

定焦One(dingjiaoone)原創(chuàng)

作者 | 王璐

編輯 | 魏佳

多次跳票后,GPT-5終于亮相。

美國(guó)西部時(shí)間8月7日(北京時(shí)間8月8日凌晨),明星AI創(chuàng)業(yè)公司OpenAI發(fā)布了新一代大模型GPT-5,并向所有用戶開放使用,包括免費(fèi)用戶。

這是OpenAI近年來最受關(guān)注的一次升級(jí),其CEO薩姆·奧特曼(Sam Altman)在發(fā)布會(huì)上宣稱,GPT-5的能力已從“大學(xué)生水平”躍升至“博士級(jí)專家”,并強(qiáng)調(diào)該模型在綜合能力上已達(dá)到全球最高。

這次發(fā)布會(huì)的關(guān)鍵詞可以簡(jiǎn)單概括為兩個(gè)詞:“專業(yè)”和“聰明”。“專業(yè)”體現(xiàn)在它在健康、編程、教育等多個(gè)場(chǎng)景中展示了更強(qiáng)的能力,同時(shí)降低幻覺率,提升了可靠性;“聰明”則主要是它首次采用集成架構(gòu),GPT-5能夠根據(jù)用戶指令的復(fù)雜度,自動(dòng)調(diào)用最合適的模型,無需用戶手動(dòng)切換,并支持更多個(gè)性化功能。

然而,外界反饋卻較為平淡,部分用戶和從業(yè)者認(rèn)為,GPT-5“缺乏驚喜”。

這一方面是因?yàn)榇饲鞍姹景l(fā)布頻繁,預(yù)期被不斷拉高。

AI從業(yè)者云中江樹在發(fā)布會(huì)前便對(duì)GPT-5持觀望態(tài)度,因?yàn)閺倪^去幾輪GPT的升級(jí)來看,實(shí)際表現(xiàn)往往低于宣傳,但仍期待它這次能在推理和編程上帶來突破,真正拓寬應(yīng)用場(chǎng)景。

然而從目前來看,業(yè)界公認(rèn)在推理能力上領(lǐng)先的模型仍是GPT-o系列和DeepSeek-R1。GPT-5的進(jìn)步更多是對(duì)既有能力的優(yōu)化,而非質(zhì)的飛躍。

另一方面,盡管GPT-5降低了幻覺率,但發(fā)布會(huì)上出現(xiàn)的兩處低級(jí)錯(cuò)誤仍然引發(fā)爭(zhēng)議。

一是它在解釋伯努利效應(yīng)時(shí),錯(cuò)誤地采用了被主流物理學(xué)教材已經(jīng)證偽的“等時(shí)通過理論”,“博士級(jí)AI”居然講錯(cuò)高中物理。二是在制作圖表時(shí),GPT-5某項(xiàng)評(píng)分(52.8)明明低于o3模型(69.1),對(duì)應(yīng)的柱狀圖卻顯示更高,這也讓外界懷疑GPT-5的能力被夸大了。

GPT-5的真正實(shí)力到底如何?會(huì)給行業(yè)帶來哪些影響?

“神級(jí)”GPT-5,真的強(qiáng)嗎?

發(fā)布會(huì)開場(chǎng),薩姆·奧特曼便高贊GPT-5的強(qiáng)大,強(qiáng)調(diào)其相較前代模型已經(jīng)發(fā)生質(zhì)變。他表示,如果GPT-4像是和一位大學(xué)生進(jìn)行交談,GPT-5則接近于博士級(jí)別專家。

為了證明這一點(diǎn),OpenAI公布了Artificial Analysis全套基準(zhǔn)測(cè)試結(jié)果。數(shù)據(jù)顯示,GPT-5(high)達(dá)到68分,位列第一。GPT-5(medium)67分,與xAI的Grok 4并列第二,而DeepSeek R1是65分,排在其后。

這些數(shù)字表明,GPT-5在速度、可靠性和準(zhǔn)確性上均處于行業(yè)領(lǐng)先地位,尤其在復(fù)雜推理、編程、醫(yī)療健康等領(lǐng)域表現(xiàn)突出。

例如,在醫(yī)學(xué)領(lǐng)域,GPT-5展示了對(duì)患者檢查報(bào)告和各種醫(yī)學(xué)術(shù)語的理解能力,還以此為基礎(chǔ)提醒患者需要向醫(yī)生咨詢哪些問題,上下文理解與知識(shí)應(yīng)用能力遠(yuǎn)高于之前的GPT-4。

除了更加“專業(yè)”,在使用體驗(yàn)上,GPT-5變得更聰明了。

最大的改變是,OpenAI采用了集成架構(gòu),首次將大語言模型GPT系列和推理模型o系列融合。這意味著,GPT-5能夠根據(jù)用戶指令的復(fù)雜度,自主選擇并調(diào)用最合適的模型,不再需要用戶手動(dòng)切換。

具體來說,GPT系列是OpenAI最早構(gòu)建的模型體系,聚焦自然語言處理、對(duì)話系統(tǒng)與文本生成,o系列是OpenAI于2023年新設(shè)立的模型家族,聚焦結(jié)構(gòu)化推理能力,強(qiáng)調(diào)模型的邏輯、分析、工具調(diào)用能力。o3被視為OpenAI最強(qiáng)大的推理模型。

此外,GPT-5還變得更像人。

一方面支持定制語音、語速調(diào)節(jié)等個(gè)性化功能,語音效果已十分接近真人,另一方面具備“助理”功能,比如鏈接谷歌日歷、Gmail等工具,自動(dòng)識(shí)別未回復(fù)郵件、生成待辦事項(xiàng),提升使用者工作效率。

石榴數(shù)字人創(chuàng)始人沈仁奎評(píng)價(jià),GPT-5在多模態(tài)與工具整合上的升級(jí),能顯著提升實(shí)用性和交互體驗(yàn) 。其實(shí)時(shí)交互模型與深度推理模型之間的融合也更成熟,模型角色劃分清晰,還具備長(zhǎng)期記憶用戶信息,能為用戶提供更精準(zhǔn)、更個(gè)性化的體驗(yàn)。

他認(rèn)為,GPT-5的“模型群+路由系統(tǒng)(判斷問題難度從而自動(dòng)調(diào)用最合適的模型)”架構(gòu)設(shè)計(jì)很值得借鑒,有助于大模型在不同任務(wù)之間智能調(diào)度與資源優(yōu)化。

目前,GPT-5已經(jīng)面向免費(fèi)、Plus、Pro等用戶開放,對(duì)企業(yè)和教育用戶下周開放,按照企業(yè)級(jí)套餐計(jì)費(fèi)。免費(fèi)用戶使用有額度限制,付費(fèi)用戶中,Plus用戶可以獲得更高的使用額度,Pro用戶可專屬訪問GPT-5 Pro,區(qū)別在于推理能力更強(qiáng)、響應(yīng)更加快速。

發(fā)布會(huì)后,行業(yè)最關(guān)心的三個(gè)問題

本次發(fā)布會(huì)后,「定焦One」和幾位資深從業(yè)者聊了聊,他們最關(guān)注GPT-5的三大變化。

一是幻覺率降低。

“幻覺”是指大模型編造虛假信息,幻覺率越低,說明準(zhǔn)確性越高,大模型越可靠。

披露的數(shù)據(jù)表明,GPT-5在多個(gè)使用場(chǎng)景下的幻覺率相比前代模型有所下降。比如在聯(lián)網(wǎng)搜索模式下,GPT-5的幻覺率比GPT-4o低約45%,而在深度思考模式下,幻覺率比o3低約80%。

這意味著,其在回答準(zhǔn)確性、邏輯一致性等方面有所提升,更適用于醫(yī)療、法律等對(duì)信息真實(shí)性要求極高的應(yīng)用場(chǎng)景。

幻覺率的降低與多方面因素有關(guān),這種改進(jìn)背后,是訓(xùn)練數(shù)據(jù)、模型架構(gòu)與推理策略的協(xié)同優(yōu)化。

二是價(jià)格更具性價(jià)比。

GPT-5包含GPT-5、GPT-5 mini、GPT-5 nano三個(gè)模型,API調(diào)用價(jià)格分層設(shè)置,最低的是GPT-5 nano,每百萬輸入token為0.05美元、輸出為0.40美元,比GPT-4最便宜的模型還要低。相比老對(duì)手也有很大優(yōu)勢(shì),GPT-5的調(diào)用費(fèi)僅為Claude Opus 4的十二分之一。

這對(duì)于中小企業(yè)與開發(fā)者而言,意味著更低的試錯(cuò)成本與更廣泛的應(yīng)用空間。

最后是在編程領(lǐng)域的突破。

這也是發(fā)布會(huì)上的重中之重,OpenAI用了近一半的時(shí)間強(qiáng)調(diào)GPT-5的編程實(shí)力,官方稱其為“迄今為止最強(qiáng)大的編程模型“。在現(xiàn)場(chǎng)演示中,GPT-5僅憑一句提示詞,就創(chuàng)建出網(wǎng)站、應(yīng)用程序App和游戲,并支持復(fù)雜前端開發(fā)和大型代碼庫(kù)調(diào)試以及修復(fù) bug等功能。

OpenAI甚至還邀請(qǐng)了被稱為最強(qiáng)AI編程工具之一Cursor背后公司的聯(lián)合創(chuàng)始人,在現(xiàn)場(chǎng)演示修復(fù)bug。Cursor方面表示,GPT-5已經(jīng)是Cursor用戶的新用戶默認(rèn)選項(xiàng)。

從基準(zhǔn)測(cè)試數(shù)據(jù)來看,GPT-5的表現(xiàn)同樣領(lǐng)先。在SWE-bench Verified(評(píng)估AI編程能力)中,GPT-5思考后首次嘗試的準(zhǔn)確率達(dá)74.9%,高于GPT-o3的69.1%和GPT-4o的30.8,也領(lǐng)先于競(jìng)爭(zhēng)對(duì)手Anthropic最新推出的Claude Opus 4.1和谷歌DeepMind的Gemini 2.5 Pro。

云中江樹告訴「定焦One」,大模型的編程能力之所以備受重視,是因?yàn)楦鞔髲S商都認(rèn)可,在AI大模型訓(xùn)練中,最好的數(shù)據(jù)是形式化的數(shù)學(xué)語言,代碼數(shù)據(jù)高度結(jié)構(gòu)化、結(jié)果可驗(yàn)證、邏輯性強(qiáng),是最具價(jià)值的語料類型。

一位從業(yè)者分析,采用分階段、分領(lǐng)域的漸進(jìn)式研究策略,能顯著提升模型的綜合性能。他還以DeepSeek的誕生過程為例,它先進(jìn)行數(shù)學(xué)相關(guān)任務(wù)的專項(xiàng)研究,接著進(jìn)行代碼生成與理解任務(wù)的研究,最后應(yīng)用到通用模型,最終出現(xiàn)了DeepSeek-R1。

“這種路徑能有效提升模型的邏輯推理和結(jié)構(gòu)化思維能力。目前,國(guó)際科技巨頭以及國(guó)內(nèi)領(lǐng)先的AI研究機(jī)構(gòu),都在采用類似的漸進(jìn)式策略?!边@位從業(yè)者表示。

目前來看,GPT-5在編程能力上的提升已經(jīng)得到了廣泛認(rèn)可,但在垂直領(lǐng)域適配、工具調(diào)用效率上還有提升空間。

一位軟件工程師表示,相比Anthropic的Claude、亞馬遜的CodeWhisperer等垂直領(lǐng)域的AI編程工具,GPT-5對(duì)特定技術(shù)棧的適配性可能存在不足。他覺得,GPT-5的優(yōu)勢(shì)在于通用性,而非專業(yè)編程。

此外,在使用體驗(yàn)上,用戶反饋也出現(xiàn)分化。有開發(fā)者稱GPT-5生成效果驚艷,有人卻遇到了“生成網(wǎng)頁無法點(diǎn)擊、代碼無法運(yùn)行“等問題,生成效果很不穩(wěn)定。這也說明,盡管GPT-5在編程能力上取得突破,仍需時(shí)間和反饋不斷迭代完善。

技術(shù)不算質(zhì)變,但能推動(dòng)AI商業(yè)化

盡管GPT-5實(shí)現(xiàn)了多維度的升級(jí),但多位從業(yè)者認(rèn)為,這更像是一次架構(gòu)與工程優(yōu)化升級(jí),而非真正意義上的代際躍遷。

從產(chǎn)品實(shí)際表現(xiàn)來看,GPT-5仍存在不少短板。

比如發(fā)布會(huì)上,它在回答伯努利效應(yīng)解釋等復(fù)雜科學(xué)問題,便暴露出了AI慣有的缺陷,在推理時(shí)只注重統(tǒng)計(jì)關(guān)聯(lián),而不理解內(nèi)容本質(zhì)。在生成圖表時(shí),還出現(xiàn)了52.8分的柱狀圖比69.1分更高的明顯錯(cuò)誤。盡管薩姆·奧特曼隨后公開回應(yīng),暗示可能是AI尚未完全掌握PPT制作技巧,但還是引發(fā)外界對(duì)GPT-5能力的懷疑。

多位從業(yè)者認(rèn)為,薩姆·奧特曼宣稱的“博士級(jí)專家”能力,更像是場(chǎng)景化性能的堆砌,而非大模型認(rèn)知能力有了突破,這與其前期過度宣傳的“神級(jí)能力”存在很大差距。這也導(dǎo)致外界對(duì)本次GPT-5的評(píng)價(jià)一般。

不過,沈仁奎指出,雖然GPT-5并非是全行業(yè)顛覆式的升級(jí),但在推動(dòng)AI商業(yè)化上的作用不容低估。尤其是開放API,為企業(yè)提供了極低門檻的接入方式,可能會(huì)成為許多企業(yè)快速部署AI能力的“加速器”。

他觀察到,目前一些垂直類企業(yè),比如醫(yī)藥、生物科技等領(lǐng)域的企業(yè)以及Uber、Salesforce等已部署GPT-5,應(yīng)用于科研分析、客戶服務(wù)與運(yùn)營(yíng)決策等環(huán)節(jié)。在部分新興工具平臺(tái),比如Cursor、Windsurf等開發(fā)平臺(tái)也已集成GPT-5,來改善自身的編程效率與智能交互體驗(yàn)。企業(yè)們?cè)敢夥e極擁抱GPT-5,除了其能力有所升級(jí)外,也在于“白菜價(jià)”的API策略。

他認(rèn)為三類企業(yè)會(huì)率先吃到GPT-5的紅利,第一類為軟件開發(fā)平臺(tái),利用GPT-5自動(dòng)代碼生成、調(diào)試與工具鏈集成,提升開發(fā)效率;第二類是專注于知識(shí)管理與決策系統(tǒng)的公司,GPT-5能快速深入并解決金融、醫(yī)藥、法律等需復(fù)雜推理與輔助決策的場(chǎng)景;還有消費(fèi)級(jí)智能服務(wù)類企業(yè),它們涉及大量寫作助手、學(xué)習(xí)平臺(tái)與跨媒體內(nèi)容創(chuàng)作服務(wù),可借助GPT-5的多模態(tài)與個(gè)性化提升使用體驗(yàn)。

值得注意的是,OpenAI這次還打起了ToG的主意。它與美國(guó)總務(wù)管理局進(jìn)行合作,在未來12個(gè)月里,ChatGPT企業(yè)版將對(duì)美國(guó)聯(lián)邦政府開放,每個(gè)機(jī)構(gòu)只需要支付1美元,所有員工便可無限制使用OpenAI的前沿大模型技術(shù)。

OpenAI的以上種種動(dòng)作,展現(xiàn)出借著GPT-5從“平臺(tái)工具”加速向“社會(huì)基礎(chǔ)設(shè)施”轉(zhuǎn)型的野心。即便其能力未達(dá)“神級(jí)”,但其所激發(fā)的商業(yè)潛力和行業(yè)聯(lián)動(dòng)效應(yīng),仍可能在未來掀起一波新的AI應(yīng)用高潮。

某種意義上,GPT-5帶來的最大改變,或許不是模型本身,而是它所觸發(fā)的生態(tài)。AI的戰(zhàn)爭(zhēng),已經(jīng)從模型能力比拼,走向基礎(chǔ)能力與商業(yè)落地的全面競(jìng)賽。

*題圖來源于OpenAI官網(wǎng)。

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司