- +1
最新大模型被質(zhì)疑訓(xùn)練“刷分”,Meta承認(rèn)有漏洞但否認(rèn)作弊

科技巨頭Meta回應(yīng)了對公司最新開源AI(人工智能)模型Llama 4的質(zhì)疑,否認(rèn)該模型在訓(xùn)練集中作弊“刷分”。
當(dāng)?shù)貢r間4月7日,Meta的生成式AI負(fù)責(zé)人Ahmad Al-Dahle在社交平臺上發(fā)布了一篇長文,回應(yīng)了對于Llama 4的質(zhì)疑。Ahmad表示,由于Llama 4剛開發(fā)完就迅速發(fā)布,所以模型“在不同服務(wù)中表現(xiàn)出了參差不齊的質(zhì)量”,公司會盡快修復(fù)漏洞。同時,Ahmad否認(rèn)了Llama 4在訓(xùn)練集中作弊“刷分”的說法。
兩天前,4月5日,Meta推出了旗下最受歡迎的模型系列Llama的最新一代模型,包括較小模型Scout和標(biāo)準(zhǔn)模型Maverick這兩個版本。此外,Meta還展示了被稱為“迄今最強(qiáng)大、最智能”的模型Llama 4 Behemoth的預(yù)覽。
據(jù)介紹,Llama 4模型是Llama系列模型中首批采用混合專家(MoE)架構(gòu)的模型,在多模態(tài)性能上表現(xiàn)出眾。其中,最先進(jìn)的Llama 4 Behemoth的總參數(shù)高達(dá)2萬億,擔(dān)當(dāng)了其他模型的“老師”;Scout和Maverick的活躍參數(shù)量為170億,Scout主要面向文檔摘要與大型代碼庫推理任務(wù),Maverick則專注于多模態(tài)能力。

Meta一次性介紹三款Llama 4模型。來源:Meta
作為原生多模態(tài)模型,Llama 4采用了早期融合(Early Fusion)的技術(shù),通過使用大量無標(biāo)簽文本、圖片和視頻數(shù)據(jù)一起來預(yù)訓(xùn)練模型,將文本和視覺token無縫整合到統(tǒng)一的模型框架中。此外,Llama 4在長文本能力上也取得了突破,Scout模型支持高達(dá)1000萬token的上下文窗口,Maverick模型則支持100萬token的上下文窗口。
不過,Llama 4一經(jīng)發(fā)布就遭到了質(zhì)疑。Meta的發(fā)布界面顯示,在評估代碼能力的LiveCodeBench測試集和大模型競技場(Chatbot Arena)中,Scout和Maverick都表現(xiàn)得很不錯。但許多開發(fā)者發(fā)現(xiàn),這些模型在小型基準(zhǔn)測試中的表現(xiàn)令人失望。
例如,有網(wǎng)友指出,在一項(xiàng)讓模型完成225項(xiàng)編程任務(wù)的名為aider polyglot的基準(zhǔn)測試中,Llama 4 Maverick只取得了16%的成績,遠(yuǎn)低于Gemini 2.5 Pro、Claude 3.7 Sonnet和DeepSeek -V3等規(guī)模相近的舊模型。

Llama 4 Maverick在小型測試集上成績不如人意。來源:X平臺
AI工程師和技術(shù)作家Andriy Burkov則在社交平臺X上指出,Meta稱Llama 4 Scout擁有1000萬token的上下文窗口,而這其實(shí)是一個“偽命題”:“實(shí)際上,不會有任何模型針對超過256000個token的提示詞進(jìn)行訓(xùn)練。如果你向它發(fā)送這么多token,在大多數(shù)時候只會得到低質(zhì)量的輸出?!?/p>
對于Llama 4令人失望的表現(xiàn),一些開發(fā)者開始懷疑,為了在測試集中取得更好的成績,Meta為這些測試集制作了“特供版”Llama 4。例如,前Meta研究員、現(xiàn)任AI2(艾倫人工智能研究所)的高級研究員Nathan Lambert在經(jīng)過比較測試后指出,在大模型競技場中取得成績的Llama 4 Maverick與該公司公開發(fā)布的版本不同,前者是“在對話性上進(jìn)行了優(yōu)化”的版本。
此外,就在Llama 4發(fā)布的前幾天,在Meta工作了8年的AI研究主管Joelle Pineau宣布離職。聯(lián)系到Llama 4的表現(xiàn),更加深了網(wǎng)友對于Llama 4“暗箱操作”的質(zhì)疑。而在國內(nèi)社交平臺上,也有自稱為Meta內(nèi)部員工的網(wǎng)友稱“Llama 4的訓(xùn)練存在嚴(yán)重問題”,自己已經(jīng)向公司提交了離職申請,AI研究主管的離任也是出于同種原因。
這位網(wǎng)友表示:“經(jīng)過反復(fù)訓(xùn)練,其實(shí)內(nèi)部模型的表現(xiàn)依然未能達(dá)到開源SOTA(指在研究任務(wù)中表現(xiàn)最好的模型),甚至與之相差甚遠(yuǎn)。公司領(lǐng)導(dǎo)層建議將各個benchmark(基準(zhǔn))的測試集混合在post-training(后訓(xùn)練)過程中,目的是希望能夠在各項(xiàng)指標(biāo)上交差,拿出一個‘看起來可以’的結(jié)果。”
可以肯定的是,Llama 4的初始發(fā)布并沒有給AI社區(qū)帶來巨大的積極反響。目前,面對進(jìn)步迅速的中國AI模型,Meta急于穩(wěn)住Llama系列在開源領(lǐng)域的領(lǐng)先地位。今年2月,阿里通義千問(Qwen)系列模型的下載量已經(jīng)達(dá)到了1.8億,累計(jì)衍生模型總數(shù)達(dá)到9萬個,衍生模型數(shù)超越Meta的Llama系列,成為了全球第一大開源模型系列。
7日當(dāng)天,Meta(Nasdaq:META)股價漲2.28%,收于每股516.25美元,總市值1.31萬億美元。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




