欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

  • +1

開(kāi)源模型超過(guò)最強(qiáng)閉源模型,Llama 3.1能否顛覆AI生態(tài)?

2024-07-24 17:36
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
字號(hào)

原創(chuàng) 蘇霍伊 甲子光年

扎克伯格誓要把開(kāi)源進(jìn)行到底。

作者|蘇霍伊

編輯|趙健

Llama 3.1終于來(lái)了。

美國(guó)當(dāng)?shù)貢r(shí)間7月23日,Meta正式發(fā)布Llama 3.1。其包含8B、70B 和405B三個(gè)規(guī)模,最大上下文提升到了128k。Llama目前開(kāi)源領(lǐng)域中用戶最多、性能最強(qiáng)的大型模型系列之一。

本次Llama 3.1的要點(diǎn)有:

1.共有8B、70B及405B三種版本,其中405B版本是目前最大的開(kāi)源模型之一;

2.該模型擁有4050億參數(shù),在性能上超越了現(xiàn)有的頂級(jí)AI模型;

3.模型引入了更長(zhǎng)的上下文窗口(最長(zhǎng)可達(dá)128K tokens),能夠處理更復(fù)雜的任務(wù)和對(duì)話;

4.支持多語(yǔ)言輸入和輸出,增強(qiáng)了模型的通用性和適用范圍;

5.提高了推理能力,特別是在解決復(fù)雜數(shù)學(xué)問(wèn)題和即時(shí)生成內(nèi)容方面表現(xiàn)突出。

Meta在官方博客中寫(xiě)道:“時(shí)至今日,開(kāi)源大語(yǔ)言模型性能落后于閉源模型仍是常態(tài)。但現(xiàn)在,我們正在迎來(lái)一個(gè)開(kāi)源引領(lǐng)的新時(shí)代。我們公開(kāi)發(fā)布Meta Llama 3.1 405B是世界上最大、功能最強(qiáng)大的開(kāi)源基礎(chǔ)模型。迄今為止,所有Llama版本的累計(jì)下載次數(shù)已超過(guò)3億,而這只是一個(gè)開(kāi)始?!?/p>

開(kāi)源與閉源的爭(zhēng)論一直是技術(shù)領(lǐng)域的熱點(diǎn)話題。

開(kāi)源軟件更為透明性和靈活性,允許全球開(kāi)發(fā)者共同審查、修改和改進(jìn)代碼,從而推動(dòng)了技術(shù)的快速創(chuàng)新和進(jìn)步。而閉源模型通常由單一公司或組織開(kāi)發(fā)和維護(hù),它們能提供專(zhuān)業(yè)的支持和服務(wù),確保軟件的安全性和穩(wěn)定性。但這種模式也限制了用戶的控制權(quán)和自定義能力。

此前,一直是閉源模型略勝一籌。直到Llama 3.1的發(fā)布,在持續(xù)激烈的開(kāi)源與閉源之爭(zhēng)寫(xiě)下濃墨重彩的一筆:開(kāi)源模型終于可與閉源模型巔峰一戰(zhàn)了。

根據(jù)Meta提供的基準(zhǔn)測(cè)試數(shù)據(jù),最受關(guān)注的405B版本,從性能上已經(jīng)可與GPT-4和Claude 3相媲美。其中Human Evaluation主要用于評(píng)估模型在理解和生成代碼、解決抽象邏輯問(wèn)題方面的能力。在與其他大型模型的競(jìng)爭(zhēng)中,Llama 3.1 405B顯得略勝一籌。

Llama 3.1與GPT-4、Claude 3.5旗鼓相當(dāng),來(lái)源:Meta

斯坦福大學(xué)計(jì)算機(jī)科學(xué)系和電子工程系副教授、人工智能實(shí)驗(yàn)室主任吳恩達(dá)(Andrew Ng)在社交媒體上稱(chēng)贊“Meta和Llama團(tuán)隊(duì)對(duì)開(kāi)源的巨大貢獻(xiàn)”。他表示:“Llama 3.1增加了上下文長(zhǎng)度和改進(jìn)了功能,是送給每個(gè)人的奇妙禮物?!辈⑾M跋窦又萏嶙h的SB1047這樣愚蠢的法規(guī)不會(huì)阻止這樣的創(chuàng)新”。

吳恩達(dá)的社交媒體,來(lái)源:X

有趣的是,昨天405B版的Llama 3.1疑似在HugginFace、GitHub上被“偷跑”,爆料人發(fā)出的評(píng)測(cè)數(shù)據(jù)與今日正式發(fā)布的版本信息基本相符合。

Meta的創(chuàng)始人兼CEO馬克·扎克伯格親筆撰寫(xiě)了一篇題為《開(kāi)源人工智能是未來(lái)之路(Open Source AI Is the Path Forward)》的長(zhǎng)文章,詳細(xì)闡述了開(kāi)源對(duì)開(kāi)發(fā)者、對(duì)Meta以及對(duì)全球來(lái)說(shuō)為何具有重要意義。

他預(yù)測(cè)到今年年底,Meta AI將超過(guò)ChatGPT,成為使用最廣泛的助手。

他還表示:誓將開(kāi)源進(jìn)行到底。

《Open Source AI Is the Path Forward》的文章切片,來(lái)源Meta

1.Llama 3.1的煉成

在模型架構(gòu)方面,作為Meta迄今為止最大的模型,Llama 3.1 在超過(guò) 15 萬(wàn)億個(gè)token的數(shù)據(jù)上進(jìn)行訓(xùn)練,預(yù)訓(xùn)練數(shù)據(jù)日期截止到2023年12月。

為了在合理的時(shí)間內(nèi)在如此大規(guī)模上實(shí)現(xiàn)訓(xùn)練并取得期望的成果,Meta優(yōu)化了整個(gè)訓(xùn)練堆棧,用了超過(guò)16000塊H100,405B是第一個(gè)在此規(guī)模上訓(xùn)練的Llama模型。

Llama 3.1文本生成過(guò)程中的Transformer模型架構(gòu),來(lái)源:Meta

為了最大限度確保訓(xùn)練的穩(wěn)定性和便捷性,Meta選擇了標(biāo)準(zhǔn)的僅解碼器Transformer模型架構(gòu)進(jìn)行微調(diào),而沒(méi)有采用當(dāng)前流行的混合專(zhuān)家模型(MoE)架構(gòu)。

這一決策使得Llama 3.1在支持長(zhǎng)達(dá)128K的上下文長(zhǎng)度時(shí),依然能夠保證短文本的高質(zhì)量輸出,實(shí)現(xiàn)了對(duì)長(zhǎng)短文本的靈活處理,而非僅專(zhuān)注于長(zhǎng)文本。

同時(shí),研究團(tuán)隊(duì)在實(shí)施了一種迭代的后訓(xùn)練方法,通過(guò)每一輪的監(jiān)督式微調(diào)和直接偏好優(yōu)化,生成高質(zhì)量的合成數(shù)據(jù)并提升模型的各項(xiàng)功能。與先前版本相比,Llama 3.1增加了預(yù)訓(xùn)練和后訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量,引入了更細(xì)致的預(yù)處理和管理流程,以及更嚴(yán)格的質(zhì)量保證和過(guò)濾技術(shù)。

根據(jù)語(yǔ)言模型的擴(kuò)展規(guī)律,Llama 3.1在性能上超越了之前使用相同訓(xùn)練程序的小型模型。

為了應(yīng)對(duì)大規(guī)模的405B模型的運(yùn)行需求,Meta把模型數(shù)據(jù)從16位(BF16)量化減少到8位(FP8),這大幅降低了計(jì)算資源的需求,令模型能夠在單一服務(wù)器節(jié)點(diǎn)上運(yùn)行。

在Llama 3.1 405B模型的指令和聊天微調(diào)方面,開(kāi)發(fā)團(tuán)隊(duì)致力于提升模型對(duì)用戶指令的響應(yīng)性、實(shí)用性和質(zhì)量,同時(shí)確保高度的安全性。

在后訓(xùn)練階段,團(tuán)隊(duì)在預(yù)訓(xùn)練的基礎(chǔ)上進(jìn)行了幾輪調(diào)整。每輪包括監(jiān)督式微調(diào)(SFT)、拒絕采樣(RS)和直接偏好優(yōu)化(DPO)。此外,團(tuán)隊(duì)使用合成數(shù)據(jù)生成來(lái)產(chǎn)生絕大多數(shù) SFT 示例,這表示他們并不全然依賴(lài)真實(shí)世界的數(shù)據(jù),而是通過(guò)算法生成的數(shù)據(jù)來(lái)訓(xùn)練模型。

同時(shí),團(tuán)隊(duì)還使用多種數(shù)據(jù)處理方法來(lái)過(guò)濾這些數(shù)據(jù),確保質(zhì)量最高,并擴(kuò)大微調(diào)數(shù)據(jù)的應(yīng)用范圍。

Meta也在探索一種新策略,即使用405B模型作為70B和8B模型的“教師模型”,從而從大型模型中提煉出適合各行各業(yè)需求的小型定制模型。這種做法與GPT-4o mini的策略不謀而合,即“先做大,再做小”。

前OpenAI創(chuàng)始成員之一Andrej Karpathy曾對(duì)GPT-4o Mini做出評(píng)價(jià):“模型必須先變大,然后才能變小。因?yàn)槲覀冃枰鼈儯ㄗ詣?dòng))幫助重構(gòu)訓(xùn)練數(shù)據(jù),使其成為理想的、合成的格式?!彼赋觯@種方法能有效地將大模型的深度和廣度知識(shí)遷移到更實(shí)用、成本更低的小型模型中。

作為開(kāi)源模型路線的領(lǐng)頭羊,Meta在Llama模型的配套設(shè)施上也給足了誠(chéng)意。

Llama系統(tǒng)設(shè)計(jì)為一個(gè)綜合的框架,能夠整合多個(gè)組件,包括調(diào)用外部工具。Meta的目標(biāo)是提供一個(gè)更廣闊的系統(tǒng),讓開(kāi)發(fā)者能夠靈活地設(shè)計(jì)并創(chuàng)建符合自己需求的定制產(chǎn)品。

為了在模型層之外負(fù)責(zé)任地發(fā)展AI,研究團(tuán)隊(duì)發(fā)布了一個(gè)包含多個(gè)示例應(yīng)用和新組件的完整參考系統(tǒng),例如多語(yǔ)言安全模型Llama Guard 3和提示注入過(guò)濾器Prompt Guard。這些應(yīng)用是開(kāi)源的,可供社區(qū)進(jìn)一步開(kāi)發(fā)。

為了更好地定義組件接口并促進(jìn)其在行業(yè)中的標(biāo)準(zhǔn)化,研究人員與行業(yè)、初創(chuàng)公司和廣泛社區(qū)合作,并在GitHub上發(fā)布了“Llama Stack”提議。這是一套標(biāo)準(zhǔn)化接口,能夠簡(jiǎn)化工具鏈組件(如微調(diào)、合成數(shù)據(jù)生成)和代理應(yīng)用程序的構(gòu)建。

根據(jù)Meta提供的基準(zhǔn)測(cè)試數(shù)據(jù)顯示,Llama 3.1 405B 在NIH/Multi-needle 基準(zhǔn)測(cè)試的得分為 98.1,在性能評(píng)分上與GPT-4和Claude 3.5等不相上下。405B版本以出色的整合海量文本信息能力在ZeroSCROLLS/QuALITY基準(zhǔn)測(cè)試的得分為95.2,對(duì)于關(guān)注RAG性能的AI應(yīng)用開(kāi)發(fā)者而言十分友好。

Llama 3.1與GPT4等閉源模型相比較,來(lái)源:Meta

Llama 3.1與Mistral 7B Instruct等開(kāi)源模型相比較,來(lái)源:Meta

Llama 3.1 8B 版本顯著優(yōu)于 Gemma 2 9B 1T 和 Mistral 7B Instruct,且相較于前代Llama 3 8B的表現(xiàn)有了明顯的提升。同時(shí),Llama 3.1 70B 版本甚至超過(guò)了GPT-3.5 Turbo。

根據(jù)Llama團(tuán)隊(duì)的官方報(bào)道,他們?cè)?50多個(gè)多語(yǔ)言基準(zhǔn)數(shù)據(jù)集上對(duì)這些模型進(jìn)行了深入的性能評(píng)測(cè)和大量的人工測(cè)試。結(jié)果顯示,Llama的頂級(jí)模型在各種任務(wù)上能夠與市場(chǎng)上的頂尖基礎(chǔ)模型如GPT-4、GPT-4o和Claude 3.5 Sonnet等相媲美。同時(shí),相較于具有類(lèi)似參數(shù)規(guī)模的封閉和開(kāi)源模型,Llama的小型版本同樣表現(xiàn)出了強(qiáng)勁的競(jìng)爭(zhēng)力。

2.開(kāi)源、閉源模型之爭(zhēng)

開(kāi)源模型到底能否超越閉源模型?

這個(gè)問(wèn)題從去年開(kāi)始就備受爭(zhēng)議。兩種模型的發(fā)展道路代表著不同技術(shù)哲學(xué),它們?cè)诖龠M(jìn)技術(shù)進(jìn)步和滿足商業(yè)需求方面各有千秋。

比如Llama 3.1是一個(gè)開(kāi)源的大模型,它允許研究人員和開(kāi)發(fā)者訪問(wèn)其源代碼,人們可以自由地研究、修改甚至改進(jìn)模型。這種開(kāi)放性鼓勵(lì)了廣泛的合作和創(chuàng)新,讓來(lái)自不同背景的開(kāi)發(fā)者能夠共同解決問(wèn)題。

相對(duì)地,ChatGPT是由OpenAI開(kāi)發(fā)的閉源模型,雖然它提供了API訪問(wèn),但其核心算法和訓(xùn)練數(shù)據(jù)未完全公開(kāi)。GPT-3的閉源特性使得其能夠在商業(yè)化路徑上更加穩(wěn)健,同時(shí)控制性確保了產(chǎn)品的穩(wěn)定性和安全性,在處理敏感信息時(shí)更受企業(yè)信賴(lài)。但這種封閉性也限制了外部研究者對(duì)模型的完全理解和創(chuàng)新能力。

去年Meta發(fā)布開(kāi)源大模型Llama 2后,楊立昆表示,Llama 2將改變大語(yǔ)言模型的市場(chǎng)格局。

人們對(duì)于Llama系列模型所引領(lǐng)的開(kāi)源社區(qū)備受期待。此前,最先進(jìn)的閉源模型GPT-4始終略勝一籌,雖然當(dāng)時(shí)的Llama 3 與之相比差距已經(jīng)很小了。

大模型領(lǐng)域最權(quán)威的榜單是大模型競(jìng)技場(chǎng)(LLM Arena),采用了國(guó)際象棋一直采用了ELO積分體系。它的基本規(guī)則是,讓用戶向兩個(gè)匿名模型(例如 ChatGPT、Claude、Llama)提出任何問(wèn)題,并投票給回答更好的一個(gè)?;卮鸶玫哪P蛯@得積分,最終的排名由累計(jì)積分的高低來(lái)確定。Arean ELO收集了50萬(wàn)人的投票數(shù)據(jù)。

大模型排行榜一覽,來(lái)源:LLM Arena

在LLM Arena排行榜上,OpenAI的GPT-4o目前占據(jù)榜首。排名前十的模型全部為閉源。雖然閉源模型在排名上仍遙遙領(lǐng)先,但開(kāi)源與閉源模型之間的差距并非李彥宏在2024年百度AI開(kāi)發(fā)者大會(huì)上所言越來(lái)越大,實(shí)際上正在逐漸縮小。

WAIC期間,李彥宏表示:“開(kāi)源其實(shí)是一種智商稅”。來(lái)源:百度

直到今天Llama 3.1的發(fā)布,開(kāi)源模型終于可與閉源模型巔峰一戰(zhàn)了。

對(duì)于開(kāi)源、閉源模型哪個(gè)更優(yōu),,「甲子光年」曾與多位AI行業(yè)從業(yè)者討論過(guò)。業(yè)內(nèi)普遍認(rèn)為:往往取決于個(gè)人立場(chǎng),并不是簡(jiǎn)單的黑白二分問(wèn)題。

開(kāi)源和閉源問(wèn)題并非純粹技術(shù)上的區(qū)別,更多關(guān)乎于商業(yè)模式的選擇。目前無(wú)論是開(kāi)源還是閉源大模型,都尚未找到一個(gè)完全成功的商業(yè)模式。

那是什么因素影響了開(kāi)源和閉源模型之間的能力差異呢?

微博新技術(shù)研發(fā)負(fù)責(zé)人張俊林指出,模型能力的增長(zhǎng)速度是一個(gè)關(guān)鍵因素。如果模型能力的增長(zhǎng)速度很快,意味著短時(shí)間內(nèi)需要大量計(jì)算資源,這種情況下閉源模型因?yàn)橘Y源優(yōu)勢(shì)而更有優(yōu)勢(shì)。相反,如果模型能力增長(zhǎng)較慢,則開(kāi)源與閉源之間的差距會(huì)減小,追趕速度也會(huì)加快。

他認(rèn)為,未來(lái)幾年內(nèi),開(kāi)源和閉源模型的能力差異將取決于“合成數(shù)據(jù)”技術(shù)的發(fā)展。如果未來(lái)兩年內(nèi)“合成數(shù)據(jù)”技術(shù)取得顯著進(jìn)展,兩者的差距可能會(huì)增大;如果沒(méi)有突破,則兩者的能力將趨于相近。

總體而言,“合成數(shù)據(jù)”將成為未來(lái)大語(yǔ)言模型發(fā)展的關(guān)鍵技術(shù)。

開(kāi)源還是閉源,本身并不決定模型性能的高低。閉源模型并非因?yàn)殚]源而領(lǐng)先,開(kāi)源模型也并非因?yàn)殚_(kāi)源而落后。甚至恰恰相反,模型是因?yàn)轭I(lǐng)先才選擇閉源,因?yàn)椴粔蝾I(lǐng)先不得不選擇開(kāi)源。

如果一家公司做出了性能很強(qiáng)的模型,它就有可能不再開(kāi)源了。

比如法國(guó)的明星創(chuàng)業(yè)公司Mistral,其開(kāi)源的最強(qiáng)7B模型Mistral-7B和首個(gè)開(kāi)源MoE模型8x7B(MMLU 70)是開(kāi)源社區(qū)聲量最大的模型之一。但是,Mistral后續(xù)訓(xùn)練的Mistral-Medium(MMLU-75)、Mistral-Large(MMLU-81) 均是閉源模型。

目前性能最好的閉源模型與性能最好的開(kāi)源模型都是由大公司所主導(dǎo),而大公司里又屬M(fèi)eta的開(kāi)源決心最大。如果OpenAI不開(kāi)源是從商業(yè)回報(bào)的角度來(lái)考慮,那么Meta選擇開(kāi)源讓用戶免費(fèi)試用的目的又是什么呢?

在上一季度的財(cái)報(bào)會(huì)上,扎克伯格對(duì)這件事的回應(yīng)是,Meta開(kāi)源其AI技術(shù)是出于推動(dòng)技術(shù)創(chuàng)新、提升模型質(zhì)量、建立行業(yè)標(biāo)準(zhǔn)、吸引人才、增加透明度和支持長(zhǎng)期戰(zhàn)略的考慮。

而這次扎克伯格在《開(kāi)源人工智能是未來(lái)之路(Open Source AI Is the Path Forward)》中詳細(xì)地解釋了“為什么開(kāi)源AI對(duì)開(kāi)發(fā)者有利”:

在與來(lái)自世界各地的開(kāi)發(fā)者、CEO和政府官員的對(duì)話中,我經(jīng)常聽(tīng)到他們強(qiáng)調(diào)需要培訓(xùn)、微調(diào)和優(yōu)化他們自己的模型。

每個(gè)組織都有其獨(dú)特需求,不同規(guī)模的模型可針對(duì)這些需求進(jìn)行優(yōu)化,使用特定數(shù)據(jù)進(jìn)行訓(xùn)練或微調(diào)。簡(jiǎn)單的設(shè)備上任務(wù)和分類(lèi)任務(wù)可能需要較小的模型,而更復(fù)雜的任務(wù)則需使用更大的模型。

現(xiàn)在,你可以使用最先進(jìn)的Llama模型,并繼續(xù)用你自己的數(shù)據(jù)來(lái)訓(xùn)練它們,之后將它們優(yōu)化到理想的規(guī)?!覀兓蚱渌魏稳硕疾粫?huì)接觸到你的數(shù)據(jù)。

我們需要控制自己的命運(yùn),而不是受制于某個(gè)閉源供應(yīng)商。

許多組織不想依賴(lài)于他們無(wú)法自行運(yùn)行和控制的模型。他們擔(dān)心閉源模型的提供者可能會(huì)更改模型、使用條款,甚至完全停止服務(wù)。他們也不希望被限制在一個(gè)對(duì)某個(gè)模型擁有獨(dú)占權(quán)的單一云平臺(tái)中。開(kāi)源為眾多公司提供了一套兼容的工具鏈,使得在不同系統(tǒng)之間切換變得容易。

我們需要保護(hù)我們的數(shù)據(jù)。

許多組織處理敏感數(shù)據(jù),需要保護(hù)這些數(shù)據(jù)不被通過(guò)云API發(fā)送到閉源模型中。其他組織則簡(jiǎn)單地不信任閉源模型提供者的數(shù)據(jù)處理方式。開(kāi)源通過(guò)讓你在任何想要的地方運(yùn)行模型來(lái)解決這些問(wèn)題,并且因?yàn)殚_(kāi)發(fā)過(guò)程的透明性而被廣泛認(rèn)為更安全。

我們需要一種高效且經(jīng)濟(jì)的運(yùn)行方式。

開(kāi)發(fā)人員可以在自己的基礎(chǔ)設(shè)施上運(yùn)行Llama 3.1 405B模型進(jìn)行推理,其成本大約是使用GPT-4o等閉源模型的一半,適用于面向用戶的和離線推理任務(wù)。

我們押注了一個(gè)有望成為長(zhǎng)期標(biāo)準(zhǔn)的生態(tài)系統(tǒng)。

很多人看到開(kāi)源模型比閉源模型發(fā)展得更快,他們希望自己構(gòu)建的系統(tǒng)架構(gòu)能帶來(lái)最大的長(zhǎng)期優(yōu)勢(shì)。

(封面圖來(lái)自Meta X賬號(hào))

END.

原標(biāo)題:《開(kāi)源模型超過(guò)最強(qiáng)閉源模型,Llama 3.1能否顛覆AI生態(tài)?|甲子光年》

閱讀原文

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司