- +1
智譜AI在華為芯片上訓(xùn)練出圖像生成模型
中國智譜AI公司完全在華為處理器上訓(xùn)練圖像生成模型,證明中國企業(yè)無需依賴西方先進(jìn)芯片即可構(gòu)建具有競爭力的AI系統(tǒng)。
該模型于周二發(fā)布,智譜AI在聲明中表示,這標(biāo)志著首次有最先進(jìn)的多模態(tài)模型在中國制造的芯片上完成完整訓(xùn)練周期。這家總部位于北京的公司使用MindSpore AI框架在華為昇騰Atlas 800T A2設(shè)備上訓(xùn)練該模型,在不依賴西方硬件的情況下完成了從數(shù)據(jù)預(yù)處理到大規(guī)模訓(xùn)練的整個流程。
這一成就對智譜AI具有戰(zhàn)略意義。去年,美國商務(wù)部將該公司列入實體清單,理由是其涉嫌與中國軍方存在關(guān)聯(lián),被認(rèn)為違背了美國國家安全或外交政策利益。這一指定實際上切斷了該公司獲得英偉達(dá)H100和A100 GPU的渠道,而這些GPU已成為訓(xùn)練先進(jìn)AI模型的標(biāo)準(zhǔn)配置,迫使中國企業(yè)圍繞國產(chǎn)芯片架構(gòu)開發(fā)替代方案。
技術(shù)架構(gòu)與性能表現(xiàn)
根據(jù)智譜AI的技術(shù)報告,GLM-Image采用混合架構(gòu),結(jié)合了90億參數(shù)的自回歸模型和70億參數(shù)的擴(kuò)散解碼器。自回歸組件負(fù)責(zé)指令理解和整體圖像構(gòu)成,而擴(kuò)散解碼器專注于渲染精細(xì)細(xì)節(jié)和準(zhǔn)確文本。
該架構(gòu)解決了生成知識密集型視覺內(nèi)容的挑戰(zhàn),在這類內(nèi)容中語義理解和精確文本渲染都很重要,如演示幻燈片、信息圖表和商業(yè)海報。
在CVTG-2K基準(zhǔn)測試中,該測試衡量在多個圖像位置放置文本的準(zhǔn)確性,GLM-Image獲得了0.9116的單詞準(zhǔn)確度分?jǐn)?shù),在開源模型中排名第一。該模型還在LongText-Bench測試中領(lǐng)先,該測試用于渲染擴(kuò)展文本段落,在包括標(biāo)牌、海報和對話框在內(nèi)的八種場景中,英文得分0.952,中文得分0.979。
該模型原生支持從1024×1024到2048×2048像素的多種分辨率,無需重新訓(xùn)練。
自主優(yōu)化技術(shù)突破
在昇騰硬件上訓(xùn)練GLM-Image需要智譜AI為華為芯片架構(gòu)開發(fā)定制優(yōu)化技術(shù)。該公司構(gòu)建了一個訓(xùn)練套件,實現(xiàn)了動態(tài)圖多級流水線部署,使訓(xùn)練過程的不同階段能夠并發(fā)運行并減少瓶頸。
智譜AI還創(chuàng)建了與昇騰架構(gòu)兼容的高性能融合算子,并采用多流并行技術(shù)在分布式訓(xùn)練期間重疊通信和計算操作。這些優(yōu)化旨在從運行方式不同于大多數(shù)AI框架默認(rèn)針對的英偉達(dá)GPU的硬件中提取最大性能。
這種技術(shù)方法驗證了競爭性AI模型可以在中國國產(chǎn)芯片生態(tài)系統(tǒng)上進(jìn)行訓(xùn)練,盡管在開發(fā)時間和工程投入方面的成本仍不明確。
智譜AI沒有透露使用了多少處理器或訓(xùn)練該模型花費了多長時間,也沒有說明與基于英偉達(dá)的等效系統(tǒng)相比的要求如何。
商業(yè)化與市場影響
智譜AI已通過API提供GLM-Image,每生成一張圖像收費0.1元(約0.014美元)。該公司在GitHub、Hugging Face和ModelScope社區(qū)發(fā)布了模型權(quán)重,供獨立部署使用。
這一定價使GLM-Image成為企業(yè)大規(guī)模生成營銷材料、演示文稿和其他文本密集型視覺內(nèi)容的經(jīng)濟(jì)高效選擇。
對于在中國運營的跨國企業(yè)來說,GLM-Image在國產(chǎn)硬件上的訓(xùn)練提供了證據(jù),表明中國AI基礎(chǔ)設(shè)施能夠支持最先進(jìn)的模型開發(fā)。在中國有業(yè)務(wù)的公司可能需要評估是否圍繞華為昇騰等平臺和MindSpore等框架制定策略。
這一發(fā)布正值中國公司投資國產(chǎn)AI基礎(chǔ)設(shè)施替代方案之際。出口管制是否會減緩或加速平行AI生態(tài)系統(tǒng)的發(fā)展仍然是政策辯論的主題。
Q&A
Q1:GLM-Image模型有什么特殊之處?
A:GLM-Image是首個完全在中國芯片上訓(xùn)練完成的最先進(jìn)多模態(tài)模型,采用90億參數(shù)自回歸模型和70億參數(shù)擴(kuò)散解碼器的混合架構(gòu),專門擅長生成包含精確文本的圖像內(nèi)容,如演示幻燈片、信息圖表等。
Q2:GLM-Image在性能測試中表現(xiàn)如何?
A:在CVTG-2K基準(zhǔn)測試中,GLM-Image獲得0.9116的單詞準(zhǔn)確度分?jǐn)?shù),在開源模型中排名第一。在LongText-Bench測試中,英文場景得分0.952,中文場景得分0.979,在文本渲染能力方面表現(xiàn)優(yōu)秀。
Q3:普通用戶如何使用GLM-Image?成本如何?
A:智譜AI通過API提供GLM-Image服務(wù),每生成一張圖像收費0.1元(約0.014美元)。同時在GitHub、Hugging Face和ModelScope社區(qū)開源了模型權(quán)重,用戶可以獨立部署使用。
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




