- +1
DeepSeek“恐懼感”支配硅谷!Meta被曝組建4個(gè)小組專門(mén)研究
中國(guó)企業(yè)深度求索開(kāi)發(fā)的大模型DeepSeek持續(xù)引發(fā)業(yè)內(nèi)震動(dòng)。硅谷對(duì)DeepSeek的“恐懼”不僅是說(shuō)說(shuō)而已,巨頭Meta已成立專門(mén)小組展開(kāi)研究和學(xué)習(xí)。
1月27日,據(jù)Information網(wǎng)站,臉書(shū)母公司Meta成立了四個(gè)專門(mén)研究小組來(lái)研究量化巨頭幻方量化旗下的國(guó)產(chǎn)大模型DeepSeek的工作原理,并基于此來(lái)改進(jìn)旗下大模型Llama。
其中兩個(gè)小組正在試圖了解幻方量化如何降低訓(xùn)練和運(yùn)行DeepSeek的成本;第三個(gè)研究小組則正在研究幻方量化可能使用了哪些數(shù)據(jù)來(lái)訓(xùn)練其模型;第四個(gè)小組正在考慮基于DeepSeek模型屬性重構(gòu)Meta模型的新技術(shù)。
Deepseek來(lái)自國(guó)產(chǎn)大模型公司深度求索,其背后是量化巨頭幻方。1月20日,DeepSeek正式發(fā)布推理大模型DeepSeek-R1。作為一款開(kāi)源模型,R1在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上的性能能夠比肩OpenAI o1模型正式版,并采用MIT許可協(xié)議,支持免費(fèi)商用、任意修改和衍生開(kāi)發(fā)等。
更令市場(chǎng)驚訝的是,據(jù)DeepSeek介紹,去年發(fā)布的DeepSeek-V3模型的預(yù)訓(xùn)練費(fèi)用只有557.6萬(wàn)美元,在2048塊英偉達(dá)H800 GPU(針對(duì)中國(guó)市場(chǎng)的低配版GPU)集群上運(yùn)行55天完成。外界預(yù)估R1的訓(xùn)練成本也不會(huì)比V3高多少,或在600萬(wàn)美元上下。
一經(jīng)推出,DeepSeek-R1便憑借其“物美價(jià)廉”的特性在海外開(kāi)發(fā)者社區(qū)中引發(fā)了轟動(dòng),更是憑借極低的訓(xùn)練成本震撼了硅谷。
DeepSeek發(fā)布后不久,Meta首席執(zhí)行官馬克·扎克伯格就宣布,Meta計(jì)劃在2025年投入超600億美元,加大對(duì)人工智能的投入。扎克伯格本人一直是開(kāi)源模型的倡導(dǎo)者。
OpenAI、Meta和其他頂級(jí)人工智能團(tuán)隊(duì)的開(kāi)發(fā)人員一直在仔細(xì)研究DeepSeek模型,并試圖搞清楚其為何能夠比一些美國(guó)制造的模型更便宜、更高效地運(yùn)行。
OpenAI科學(xué)家Noam Brown上周在社交媒體上表示:“DeepSeek表明你可以用相對(duì)較少的計(jì)算獲得非常強(qiáng)大的AI模型?!?/p>
數(shù)日前,就有Meta的工程師們?cè)谀涿缃黄脚_(tái)TeamBlind上吐露心聲,表示DeepSeek所研發(fā)的AI模型為其帶來(lái)了巨大壓力。
Meta首席AI科學(xué)家楊立昆(Yann LeCun)在其發(fā)表在Threads上的一篇文章中指出,比起“中國(guó)AI超越了美國(guó)”的觀點(diǎn),DeepSeek-R1更重要的是證明了“開(kāi)源模型正在超越專用模型”:“DeepSeek得益于開(kāi)源研究和開(kāi)源項(xiàng)目(例如PyTorch和來(lái)自Meta的Llama)。這就是開(kāi)放研究與開(kāi)源的力量。”
DeepSeek的R1模型本身就是開(kāi)源的,Meta的 Llama模型也是如此。而最初以開(kāi)源為使命的OpenAI,近年來(lái)已經(jīng)轉(zhuǎn)向了閉源模式。楊立昆表示,這并不是中國(guó)的人工智能“超越美國(guó)”,而是“開(kāi)源模型戰(zhàn)勝了專有模型”。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




