欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

  • +1

蘋果用谷歌TPU訓(xùn)練AI,都怪英偉達(dá)太貴?

2024-08-02 15:01
來源:澎湃新聞·澎湃號·湃客
聽全文
字號

這兩天,Apple Intelligence 的上線成為了最大的科技新聞之一。

雖然相比 1 個多月前公布的完整版 Apple Intelligence,蘋果 iOS 18.1 beta 1 中引入的 Apple Intelligence 功能并不完整,Image Playground、Genmoji、優(yōu)先通知、具有屏幕感知功能的 Siri 和 ChatGPT 集成……這些統(tǒng)統(tǒng)都還沒有。

但總的來說,蘋果還是帶來了 Writing Tools(寫作工具)、通話錄音(含轉(zhuǎn)錄)以及全新設(shè)計的 Siri。

其中,Writing Tools 支持重寫、專業(yè)化、簡略等功能,可以用于聊天、發(fā)朋友圈、小紅書筆記以及文本寫作等場景;通話錄音不僅可以記錄通話,還能自動轉(zhuǎn)錄成文本,方便用戶回顧。

此外,Siri 也得到了「升級」,可惜目前還僅限于設(shè)計,包括全新的「跑馬燈」特效以及鍵盤輸入支持。

但引人注目的是,蘋果在一篇名為《Apple Intelligence Foundation Language Models》的論文中披露,蘋果并沒有采用常見的英偉達(dá) H100 等 GPU,而是選了「老對手」谷歌的 TPU,訓(xùn)練 Apple Intelligence 的基礎(chǔ)模型。

圖/蘋果

用谷歌 TPU,煉成 Apple Intelligence

眾所周知,Apple Intelligence 總共分成三層:一層是運行在蘋果設(shè)備本地的端側(cè) AI,一層是基于「私有云計算」技術(shù)運行在蘋果自有數(shù)據(jù)中心的云端 AI。按照供應(yīng)鏈傳出的消息,蘋果將通過大量制造 M2 Ultra 來構(gòu)建自有數(shù)據(jù)中心。

此外還有一層,則是接入第三方云端大模型,比如 GPT-4o 等。

不過這是推理端,蘋果是如何訓(xùn)練出自己的 AI 模型,一直是行業(yè)內(nèi)關(guān)注的焦點之一。而從蘋果官方的論文來看,蘋果是在 TPUv4 和 TPUv5p 集群的硬件上訓(xùn)練了兩個基礎(chǔ)模型:

一個是參數(shù)規(guī)模達(dá)到 3 億的設(shè)備端模型 AFM-on-device,使用 2048 塊 TPU v5p 訓(xùn)練而成,本地運行在蘋果設(shè)備上;一個是參數(shù)規(guī)模更大的服務(wù)器端模型 AFM-server,使用 8192 塊 TPU v4 芯片訓(xùn)練,最終運行在蘋果自有數(shù)據(jù)中心里。

圖/蘋果

這就奇怪了,畢竟我們都知道,英偉達(dá) H100 等 GPU 才是目前訓(xùn)練 AI 的主流選擇,甚至?xí)小窤I 訓(xùn)練只用 Nvidia GPU」的說法。

與之相對,谷歌的 TPU 就顯得有些「名不見經(jīng)傳」。

但事實上,谷歌的 TPU 是專為機器學(xué)習(xí)和深度學(xué)習(xí)任務(wù)設(shè)計的加速器,能夠提供卓越的性能優(yōu)勢。憑借其高效的計算能力和低延遲的網(wǎng)絡(luò)連接,谷歌的 TPU 在處理大型模型訓(xùn)練任務(wù)時表現(xiàn)出色。

例如,TPU v4 就能提供了每個芯片高達(dá) 275 TFLOPS 的峰值算力,并通過超高速互連將 4096 個 TPUv4 芯片連接成一個大規(guī)模的 TPU 超算,從而實現(xiàn)算力規(guī)模的倍增。

而且不僅是蘋果,其他大模型公司也采用了谷歌的 TPU 來訓(xùn)練他們的大型模型。Anthropic 公司的 Claude 就是一個典型的例子。

聊天機器人競技場排行,圖/LMSYS

Claude 如今可以說是 OpenAI GPT 模型最強大的競爭對手,在 LMSYS 聊天機器人競技場上,Claude 3.5 Sonnet 與 GPT-4o 始終是「臥龍鳳雛」(褒義)。而據(jù)披露,Anthropic 一直沒有購買英偉達(dá) GPU 來搭建超算,就是使用 Google Cloud 上 TPU 集群來訓(xùn)練和推理。

去年底,Anthropic 還官宣率先使用 Google Cloud 上的 TPU v5e 集群來訓(xùn)練 Claude。

Anthropic 的長期使用,以及 Claude 表現(xiàn)出來的效果,都充分展示了谷歌 TPU 在 AI 訓(xùn)練中的高效性和可靠性。

此外,谷歌的 Gemini 也是完全依賴于自研的 TPU 芯片進(jìn)行訓(xùn)練。Gemini 模型旨在推進(jìn)自然語言處理和生成技術(shù)的前沿,其訓(xùn)練過程需要處理大量的文本數(shù)據(jù),并進(jìn)行復(fù)雜的模型計算。

而 TPU 的強大計算能力和高效的分布式訓(xùn)練架構(gòu),使得 Gemini 能夠在相對較短的時間內(nèi)完成訓(xùn)練,并在性能上取得顯著突破 。

但如果說 Gemini 尚可理解,那從 Anthropic 到蘋果又為什么選擇谷歌 TPU,而不是英偉達(dá) GPU?

TPU 和 GPU,谷歌和英偉達(dá)的暗戰(zhàn)

在本周一舉辦的計算機圖形學(xué)頂級會議 SIGGRAPH 2024 上,英偉達(dá)創(chuàng)始人兼 CEO 黃仁勛透露,本周英偉達(dá)就將發(fā)送 Blackwell 架構(gòu)的樣品,這是英偉達(dá)最新一代的 GPU 架構(gòu)。

2024 年 3 月 18 日,英偉達(dá) GTC 大會上發(fā)布了其最新一代 GPU 架構(gòu)——Blackwell,以及最新一代 B200 GPU。在性能上,B200 GPU 在 FP8 及新的 FP6 上可以達(dá)到 20 petaflops(每秒千萬億次浮點運算)的算力,使其在處理復(fù)雜 AI 模型時表現(xiàn)出色。

Blackwell 發(fā)布的兩個月后,谷歌也發(fā)布了其第六代 TPU(Trillium TPU),每塊芯片在 BF16 下可以提供接近 1000 TFLOPS(每秒萬億次)的峰值算力,谷歌也將其評價為「迄今為止性能最高、最節(jié)能的 TPU」。

圖/谷歌

對比谷歌的 Trillium TPU,英偉達(dá) Blackwell GPU 在高帶寬內(nèi)存(HBM3)和 CUDA 生態(tài)系統(tǒng)的支持下,在高性能計算中仍然有著一定的優(yōu)勢。在單個系統(tǒng)中,Blackwell可以并行連接多達(dá) 576 個 GPU,實現(xiàn)強大的算力和靈活的擴展性。

相比之下,谷歌的 Trillium TPU 則注重在大規(guī)模分布式訓(xùn)練中的高效性和低延遲。TPU 的設(shè)計使其能夠在大規(guī)模模型訓(xùn)練中保持高效,并通過超高速網(wǎng)絡(luò)互連減少通信延遲,從而提高整體計算效率。

而不僅是在最新一代的 AI 芯片上,谷歌與英偉達(dá)之間的「暗戰(zhàn)」實際已經(jīng)存在了 8 年,從 2016 年谷歌自研 AI 芯片 TPU 就開始。

到今天,英偉達(dá)的 H100 GPU 是目前主流市場上最受歡迎的 AI 芯片,不僅提供了高達(dá) 80GB 的高帶寬內(nèi)存,還支持 HBM3 內(nèi)存,并通過 NVLink 互連實現(xiàn)多 GPU 的高效通信?;?Tensor Core 技術(shù),H100 GPU 在深度學(xué)習(xí)和推理任務(wù)中具有極高的計算效率。

但同時,TPUv5e 在性價比上具有顯著優(yōu)勢,特別適合中小規(guī)模模型的訓(xùn)練。TPUv5e 的優(yōu)勢在于其強大的分布式計算能力和優(yōu)化的能耗比,使其在處理大規(guī)模數(shù)據(jù)時表現(xiàn)出色。此外,TPUv5e 還通過谷歌云平臺提供,便于用戶進(jìn)行靈活的云端訓(xùn)練和部署。

谷歌數(shù)據(jù)中心,圖/谷歌

整體來說,英偉達(dá)和谷歌在 AI 芯片上的策略各有側(cè)重:英偉達(dá)通過提供強大的算力和廣泛的開發(fā)者支持,推動 AI 模型的性能極限;而谷歌則通過高效的分布式計算架構(gòu),提升大規(guī)模 AI 模型訓(xùn)練的效率。這兩種不同的路徑選擇,使得它們在各自的應(yīng)用領(lǐng)域中都展現(xiàn)出了獨特的優(yōu)勢。

不過更重要的是,能打敗英偉達(dá)的,也只有采用軟硬件協(xié)同設(shè)計策略,同時擁有強大的芯片能力和軟件能力的對手。

谷歌就是這樣一個對手。

英偉達(dá)霸權(quán)的最強挑戰(zhàn)者

Blackwell 是繼 Hopper 之后英偉達(dá)的又一重大升級,具有強大的計算能力,專為大規(guī)模語言模型(LLM)和生成式 AI 而設(shè)計。

據(jù)介紹,B200 GPU 采用了臺積電 N4P 工藝制造,擁有多達(dá) 2080 億個晶體管,由兩塊 GPU 芯片采用互連技術(shù)「組成」,并且配備了高達(dá) 192GB 的 HBM3e(高帶寬內(nèi)存),帶寬可達(dá) 8TB/s。

而在性能上,谷歌的 Trillium TPU 相比上一代 TPU v5e 在 BF16 下提升了 4.7 倍,HBM 容量和帶寬、芯片互連帶寬也都翻了一番。此外,Trillium TPU 還配備了第三代  SparseCore,可以加速訓(xùn)練新一代基礎(chǔ)模型,延遲更低,成本也更低。

Trillium TPU 特別適合大規(guī)模語言模型和推薦系統(tǒng)的訓(xùn)練,可以擴展出數(shù)百個 集,通過每秒 PB 級別的網(wǎng)絡(luò)互連技術(shù)連接數(shù)以萬計的芯片,實現(xiàn)另一種層面的超級「計算機」,大幅提升計算效率和減少網(wǎng)絡(luò)延遲。

圖/谷歌

從今年下半年開始,Google Cloud 用戶就能率先采用這款芯片。

總的來說,谷歌 TPU 的硬件優(yōu)勢在于其高效的算力和低延遲的分布式訓(xùn)練架構(gòu)。這使得 TPU 在大規(guī)模語言模型和推薦系統(tǒng)的訓(xùn)練中表現(xiàn)出色。然而,谷歌 TPU 的優(yōu)勢還在于獨立于 CUDA 之外另一個完整的生態(tài),以及更深度的垂直整合。

通過 Google Cloud 平臺,用戶可以靈活地在云端進(jìn)行訓(xùn)練和部署。這種云端服務(wù)模式不僅減少了企業(yè)在硬件上的投入,還提高了 AI 模型的訓(xùn)練效率。Google、 Cloud 還提供了一系列支持 AI 開發(fā)的工具和服務(wù),如 TensorFlow 和 Jupyter Notebook,使開發(fā)者能夠更加便捷地進(jìn)行模型訓(xùn)練和測試。

蘋果用上的谷歌 TPU v5p,圖/谷歌

谷歌的 AI 生態(tài)系統(tǒng)中還包含了多種開發(fā)工具和框架,如 TensorFlow,這是一個廣泛使用的開源機器學(xué)習(xí)框架,能夠充分利用 TPU 的硬件加速功能。谷歌還提供了其他支持 AI 開發(fā)的工具,如 TPU Estimator 和 Keras,這些工具的無縫集成大大簡化了開發(fā)流程。

此外,谷歌的優(yōu)勢還在于:谷歌自己就是對 TPU 算力需求最大的客戶。從 YouTube 海量視頻內(nèi)容的處理,到 Gemini 的每一次訓(xùn)練和推理,TPU 早就融入谷歌的業(yè)務(wù)體系之中,也滿足了谷歌的巨量算力需求。

可以說,谷歌的垂直整合遠(yuǎn)比英偉達(dá)來得徹底,幾乎完全掌握了從模型訓(xùn)練到應(yīng)用,再到用戶體驗的關(guān)鍵節(jié)點,這實際也給了谷歌更大的可能,可以根據(jù)技術(shù)和市場趨勢從底層開始優(yōu)化效率。

所以盡管在芯片的性能指標(biāo)上,Trillium TPU 依然難以和 Blackwell GPU 相抗衡,然而具體到大模型的訓(xùn)練上,谷歌仍能通過系統(tǒng)性地優(yōu)化效率,比肩甚至超越英偉達(dá) CUDA 生態(tài)。

在 Google Cloud 用 TPU,是蘋果最好的選擇

簡言之,谷歌 TPU 集群性能、成本和生態(tài)的優(yōu)勢,使其成為大規(guī)模 AI 模型訓(xùn)練的理想選擇。反過來,在 Google Cloud 用 TPU 也是蘋果現(xiàn)階段最好的選擇。

基于 TPU v4 的超算,蘋果也用到了。圖/谷歌

一方面是性能和成本。TPU 在處理大規(guī)模分布式訓(xùn)練任務(wù)時表現(xiàn)出色,提供高效、低延遲的計算能力,滿足蘋果在 AI 模型訓(xùn)練中的需求。而通過使用 Google Cloud 平臺,蘋果可以降低硬件成本,靈活調(diào)整計算資源,優(yōu)化 AI 開發(fā)的總體成本。

另一方面是生態(tài)。谷歌的 AI 開發(fā)生態(tài)系統(tǒng)也提供了豐富的工具和支持,使得蘋果能夠更高效地開發(fā)和部署其 AI 模型,再加上 Google Cloud 的強大基礎(chǔ)設(shè)施和技術(shù)支持也為蘋果的 AI 項目提供了堅實的保障。

今年 3 月,曾經(jīng)任職于英偉達(dá)、IBM 和谷歌的 Sumit Gupta 加入了蘋果,領(lǐng)導(dǎo)云基礎(chǔ)設(shè)施。根據(jù)報道,Sumit Gupta 于 2021 年加入谷歌的 AI 基礎(chǔ)設(shè)施團隊,并最終成為了谷歌 TPU、自研 Arm CPU 等基礎(chǔ)設(shè)施的產(chǎn)品經(jīng)理。

Sumit Gupta 比蘋果內(nèi)部絕大部分人都更了解谷歌 TPU的優(yōu)勢所在。

2024上半年,科技圈風(fēng)起云涌。

大模型加速落地,AI手機、AI PC、AI家電、AI搜索、AI電商……AI應(yīng)用層出不窮;

Vision Pro開售并登陸中國市場,再掀XR空間計算浪潮;

HarmonyOS NEXT正式發(fā)布,移動OS生態(tài)生變;

汽車全面進(jìn)入“下半場”,智能化成頭等大事;

電商競爭日益劇烈,卷低價更卷服務(wù);

出海浪潮風(fēng)起云涌,中國品牌邁上全球化征程;

……

7月流火,雷科技·年中回顧專題上線,總結(jié)科技產(chǎn)業(yè)2024上半年值得記錄的品牌、技術(shù)和產(chǎn)品,記錄過去、展望未來,敬請關(guān)注。

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司