欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

  • +1

逐鹿大模型|Meta的Llama 4究竟是個什么水平?

2025-04-24 16:21
來源:澎湃新聞·澎湃號·湃客
字號

日前,Meta(原Facebook)推出了Llama 4的3個版本,Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。在大模型競技場(LMSYS Chatbot Arena)的盲測跑分中,Llama 4 Maverick 的總排名第二,成為第四個突破 1400分的大模型。不僅在開放模型中排名第一;在困難提示詞、編程、數(shù)學(xué)、創(chuàng)意寫作等任務(wù)中也均排名第一。

但懷疑隨之而來,因為眾多網(wǎng)友下載實測后,發(fā)現(xiàn)Llama 4的表現(xiàn)很差,根本不像是在競技場排名第一的水平。此外,在競技場之外的第三方評測中,Llama 4排名都是墊底,表現(xiàn)遠不如Gemini和Deepseek。更有匿名員工在論壇爆料稱Llama 4的研發(fā)有不端行為,自己已經(jīng)辭職,并要求不在Llama 4的技術(shù)報告上署名。

文/承天蒙

/01/

廣泛批評和質(zhì)疑

不久,大模型競技場母公司LMSYS發(fā)布官方聲明,稱Meta交給競技場的Llama 4是針對評測指標優(yōu)化過的特供版,和網(wǎng)友們下載的正常版本不一樣。LMSYS批評了Meta這種打擦邊球的行為,表示會用Llama 4的正常版重新評測。

面對鋪天蓋地的批評和指責(zé),Meta的副總裁兼GenAI負責(zé)人Ahmad Al-Dahle在X上發(fā)表聲明,否認了在測試集上訓(xùn)練的指控,并將質(zhì)量不穩(wěn)定的問題歸因為bug。

那么Llama 4究竟是怎樣的技術(shù)路線,它的真實水平又如何呢?

/02/

被公司給予厚望

多模態(tài)大語言模型(Multimodal Large Language Models,簡稱MLLM),結(jié)合了大語言模型(LLM)的自然語言處理能力,和對其他模態(tài)(如視覺、音頻等)數(shù)據(jù)的理解與生成能力。它能夠處理和理解來自文本、圖像、聲音等不同模態(tài)的信息,并將這些信息整合,以完成復(fù)雜的任務(wù)。可以說,多模態(tài)大模型是普通大語言模型的進化態(tài),也是未來前往通用人工智能的必經(jīng)之路。谷歌Gemini,OpenAI的GPT-4都是多模態(tài)大語言模型。

在大模型的軍備競賽中,Meta作為依靠Facebook、Instagram等社交媒體賺得盆滿缽滿的互聯(lián)網(wǎng)科技公司,在AI技術(shù)上不甘落為人后。但現(xiàn)實卻很骨感。Llama 3.3剛剛發(fā)布一個月,Deepseek R1便橫空出世,在預(yù)算少的多的情況下取得了更好的成績。Llama 3.3甫一面世就直接過時,這讓Meta受到了巨大的震撼,科技媒體報道稱,Meta管理層對自己進行了反思。

由于資本市場的施壓,Meta計劃今年在AI領(lǐng)域投資650億美元,勢必要做出一番成績。對其自家的多模態(tài)大模型Llama 4,Meta更是給予厚望。

在其官方新聞稿中,Meta表示,Llama 4 Scout和Llama 4 Maverick是其“迄今為止最先進的模型”,也是“同類產(chǎn)品中多模態(tài)性能最好的”。Llama 4 Behemoth目前還正在訓(xùn)練,但CEO馬克·扎克伯格已經(jīng)表示,Behemoth是“全世界表現(xiàn)最好的基礎(chǔ)預(yù)訓(xùn)練模型?!?/p>

/03/

亮點:1000萬token的上下文窗口

Llama 4的三個版本,均采用了“混合專家模型”(Mixture of Experts,簡稱MoE)架構(gòu)和一種新的固定超參數(shù)(hyperparameters)的訓(xùn)練方法。其特別之處在于設(shè)置了高達1000萬個token的上下文窗口,這是AI大模型與用戶一次輸入/輸出能處理的信息量,相當于AI的工作內(nèi)存。Meta將之評價為“行業(yè)領(lǐng)軍”。

混合專家模型是一種機器學(xué)習(xí)方法,它將任務(wù)拆分為若干子任務(wù),并將每個子任務(wù)分配給專門解決該類問題的神經(jīng)網(wǎng)絡(luò)子系統(tǒng)。每個“專家”負責(zé)解決問題的一部分,最終將各自的結(jié)果合并成一個整體輸出。DeepSeek-V3就是一個MoE模型,因此MoE被普遍認為能在降低資源消耗的同時提升輸出質(zhì)量。

據(jù)Meta介紹,Llama 4 Scout擁有1090億個參數(shù),每次調(diào)用會激活16個專家模型中的170億個參數(shù)。Meta稱,該模型可以部署在一塊Nvidia H100 GPU上——不過這需要進行大幅量化處理,即對模型參數(shù)進行壓縮和量化,從而降低模型的存儲和計算復(fù)雜度。而且即使如此,其高達1000萬個token的上下文窗口也無法充分利用。

Llama 4 Maverick體量更大,擁有128個專家模型,總參數(shù)量達4020億,但與Scout一樣,每次調(diào)用仍只激活170億個參數(shù)。

Scout和Maverick都是基于Llama 4 Behemoth。Meta表示,Behemoth擁有2880億個活躍參數(shù)、16個專家模型,以及接近兩萬億的總參數(shù)規(guī)模。

/04/

跟隨者

Meta稱,Llama 4 Scout“在廣泛報道的基準測試中 ”擊敗了谷歌的Gemma 3和Gemini 2.0 Flash-Lite模型,以及開源的Mistral 3.1,同時仍然 “適合單個Nvidia H100 GPU”。并稱其Maverick 模型在編碼和推理任務(wù)中的結(jié)果可與 DeepSeek-V3 相媲美,使用的“活動參數(shù)不到其一半”?,F(xiàn)在看來,這究竟是事實說話,還是自吹自擂,需要靠實踐出真知了。

社交網(wǎng)絡(luò)上,試用了Llama 4的網(wǎng)友對其表示失望,網(wǎng)友評價稱:“Meta的掙扎證明,如果你的idea不新鮮,即使擁有世界上全部的GPU和數(shù)據(jù)也沒什么意義。Deepseek和OpenAI這樣的公司才表現(xiàn)出了推動AI前進的真正創(chuàng)新?!?/p>

作為大模型和AI研發(fā)的跟隨者,Meta雖然有錢,也渴望做出一番成績,但從Llama 4目前的表現(xiàn)來看,Meta在大模型領(lǐng)域還有很長一段路要走。

閱讀原文

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司