DeepSeek“恐懼感”支配硅谷！Meta被曝組建4個(gè)小組專門(mén)研究

澎湃新聞?dòng)浾?吳遇利

2025-01-27 13:01

來(lái)源：澎湃新聞

中國(guó)企業(yè)深度求索開(kāi)發(fā)的大模型DeepSeek持續(xù)引發(fā)業(yè)內(nèi)震動(dòng)。硅谷對(duì)DeepSeek的“恐懼”不僅是說(shuō)說(shuō)而已，巨頭Meta已成立專門(mén)小組展開(kāi)研究和學(xué)習(xí)。

1月27日，據(jù)Information網(wǎng)站，臉書(shū)母公司Meta成立了四個(gè)專門(mén)研究小組來(lái)研究量化巨頭幻方量化旗下的國(guó)產(chǎn)大模型DeepSeek的工作原理，并基于此來(lái)改進(jìn)旗下大模型Llama。

其中兩個(gè)小組正在試圖了解幻方量化如何降低訓(xùn)練和運(yùn)行DeepSeek的成本；第三個(gè)研究小組則正在研究幻方量化可能使用了哪些數(shù)據(jù)來(lái)訓(xùn)練其模型；第四個(gè)小組正在考慮基于DeepSeek模型屬性重構(gòu)Meta模型的新技術(shù)。

Deepseek來(lái)自國(guó)產(chǎn)大模型公司深度求索，其背后是量化巨頭幻方。1月20日，DeepSeek正式發(fā)布推理大模型DeepSeek-R1。作為一款開(kāi)源模型，R1在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上的性能能夠比肩OpenAI o1模型正式版，并采用MIT許可協(xié)議，支持免費(fèi)商用、任意修改和衍生開(kāi)發(fā)等。

更令市場(chǎng)驚訝的是，據(jù)DeepSeek介紹，去年發(fā)布的DeepSeek-V3模型的預(yù)訓(xùn)練費(fèi)用只有557.6萬(wàn)美元，在2048塊英偉達(dá)H800 GPU（針對(duì)中國(guó)市場(chǎng)的低配版GPU）集群上運(yùn)行55天完成。外界預(yù)估R1的訓(xùn)練成本也不會(huì)比V3高多少，或在600萬(wàn)美元上下。

一經(jīng)推出，DeepSeek-R1便憑借其“物美價(jià)廉”的特性在海外開(kāi)發(fā)者社區(qū)中引發(fā)了轟動(dòng)，更是憑借極低的訓(xùn)練成本震撼了硅谷。

DeepSeek發(fā)布后不久，Meta首席執(zhí)行官馬克·扎克伯格就宣布，Meta計(jì)劃在2025年投入超600億美元，加大對(duì)人工智能的投入。扎克伯格本人一直是開(kāi)源模型的倡導(dǎo)者。

OpenAI、Meta和其他頂級(jí)人工智能團(tuán)隊(duì)的開(kāi)發(fā)人員一直在仔細(xì)研究DeepSeek模型，并試圖搞清楚其為何能夠比一些美國(guó)制造的模型更便宜、更高效地運(yùn)行。

OpenAI科學(xué)家Noam Brown上周在社交媒體上表示：“DeepSeek表明你可以用相對(duì)較少的計(jì)算獲得非常強(qiáng)大的AI模型?！?/p>

數(shù)日前，就有Meta的工程師們?cè)谀涿缃黄脚_(tái)TeamBlind上吐露心聲，表示DeepSeek所研發(fā)的AI模型為其帶來(lái)了巨大壓力。

Meta首席AI科學(xué)家楊立昆（Yann LeCun）在其發(fā)表在Threads上的一篇文章中指出，比起“中國(guó)AI超越了美國(guó)”的觀點(diǎn)，DeepSeek-R1更重要的是證明了“開(kāi)源模型正在超越專用模型”：“DeepSeek得益于開(kāi)源研究和開(kāi)源項(xiàng)目（例如PyTorch和來(lái)自Meta的Llama）。這就是開(kāi)放研究與開(kāi)源的力量。”

DeepSeek的R1模型本身就是開(kāi)源的，Meta的 Llama模型也是如此。而最初以開(kāi)源為使命的OpenAI，近年來(lái)已經(jīng)轉(zhuǎn)向了閉源模式。楊立昆表示，這并不是中國(guó)的人工智能“超越美國(guó)”，而是“開(kāi)源模型戰(zhàn)勝了專有模型”。

責(zé)任編輯：是冬冬

圖片編輯：陳飛燕

校對(duì)：劉威

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#DeepSeeK #meta #開(kāi)源模型