智譜AI在華為芯片上訓(xùn)練出圖像生成模型

2026-01-24 16:55

來源：澎湃新聞·澎湃號·湃客

聽全文

中國智譜AI公司完全在華為處理器上訓(xùn)練圖像生成模型，證明中國企業(yè)無需依賴西方先進(jìn)芯片即可構(gòu)建具有競爭力的AI系統(tǒng)。

該模型于周二發(fā)布，智譜AI在聲明中表示，這標(biāo)志著首次有最先進(jìn)的多模態(tài)模型在中國制造的芯片上完成完整訓(xùn)練周期。這家總部位于北京的公司使用MindSpore AI框架在華為昇騰Atlas 800T A2設(shè)備上訓(xùn)練該模型，在不依賴西方硬件的情況下完成了從數(shù)據(jù)預(yù)處理到大規(guī)模訓(xùn)練的整個流程。

這一成就對智譜AI具有戰(zhàn)略意義。去年，美國商務(wù)部將該公司列入實體清單，理由是其涉嫌與中國軍方存在關(guān)聯(lián)，被認(rèn)為違背了美國國家安全或外交政策利益。這一指定實際上切斷了該公司獲得英偉達(dá)H100和A100 GPU的渠道，而這些GPU已成為訓(xùn)練先進(jìn)AI模型的標(biāo)準(zhǔn)配置，迫使中國企業(yè)圍繞國產(chǎn)芯片架構(gòu)開發(fā)替代方案。

技術(shù)架構(gòu)與性能表現(xiàn)

根據(jù)智譜AI的技術(shù)報告，GLM-Image采用混合架構(gòu)，結(jié)合了90億參數(shù)的自回歸模型和70億參數(shù)的擴(kuò)散解碼器。自回歸組件負(fù)責(zé)指令理解和整體圖像構(gòu)成，而擴(kuò)散解碼器專注于渲染精細(xì)細(xì)節(jié)和準(zhǔn)確文本。

該架構(gòu)解決了生成知識密集型視覺內(nèi)容的挑戰(zhàn)，在這類內(nèi)容中語義理解和精確文本渲染都很重要，如演示幻燈片、信息圖表和商業(yè)海報。

在CVTG-2K基準(zhǔn)測試中，該測試衡量在多個圖像位置放置文本的準(zhǔn)確性，GLM-Image獲得了0.9116的單詞準(zhǔn)確度分?jǐn)?shù)，在開源模型中排名第一。該模型還在LongText-Bench測試中領(lǐng)先，該測試用于渲染擴(kuò)展文本段落，在包括標(biāo)牌、海報和對話框在內(nèi)的八種場景中，英文得分0.952，中文得分0.979。

該模型原生支持從1024×1024到2048×2048像素的多種分辨率，無需重新訓(xùn)練。

自主優(yōu)化技術(shù)突破

在昇騰硬件上訓(xùn)練GLM-Image需要智譜AI為華為芯片架構(gòu)開發(fā)定制優(yōu)化技術(shù)。該公司構(gòu)建了一個訓(xùn)練套件，實現(xiàn)了動態(tài)圖多級流水線部署，使訓(xùn)練過程的不同階段能夠并發(fā)運行并減少瓶頸。

智譜AI還創(chuàng)建了與昇騰架構(gòu)兼容的高性能融合算子，并采用多流并行技術(shù)在分布式訓(xùn)練期間重疊通信和計算操作。這些優(yōu)化旨在從運行方式不同于大多數(shù)AI框架默認(rèn)針對的英偉達(dá)GPU的硬件中提取最大性能。

這種技術(shù)方法驗證了競爭性AI模型可以在中國國產(chǎn)芯片生態(tài)系統(tǒng)上進(jìn)行訓(xùn)練，盡管在開發(fā)時間和工程投入方面的成本仍不明確。

智譜AI沒有透露使用了多少處理器或訓(xùn)練該模型花費了多長時間，也沒有說明與基于英偉達(dá)的等效系統(tǒng)相比的要求如何。

商業(yè)化與市場影響

智譜AI已通過API提供GLM-Image，每生成一張圖像收費0.1元（約0.014美元）。該公司在GitHub、Hugging Face和ModelScope社區(qū)發(fā)布了模型權(quán)重，供獨立部署使用。

這一定價使GLM-Image成為企業(yè)大規(guī)模生成營銷材料、演示文稿和其他文本密集型視覺內(nèi)容的經(jīng)濟(jì)高效選擇。

對于在中國運營的跨國企業(yè)來說，GLM-Image在國產(chǎn)硬件上的訓(xùn)練提供了證據(jù)，表明中國AI基礎(chǔ)設(shè)施能夠支持最先進(jìn)的模型開發(fā)。在中國有業(yè)務(wù)的公司可能需要評估是否圍繞華為昇騰等平臺和MindSpore等框架制定策略。

這一發(fā)布正值中國公司投資國產(chǎn)AI基礎(chǔ)設(shè)施替代方案之際。出口管制是否會減緩或加速平行AI生態(tài)系統(tǒng)的發(fā)展仍然是政策辯論的主題。

Q&A

Q1：GLM-Image模型有什么特殊之處？

A：GLM-Image是首個完全在中國芯片上訓(xùn)練完成的最先進(jìn)多模態(tài)模型，采用90億參數(shù)自回歸模型和70億參數(shù)擴(kuò)散解碼器的混合架構(gòu)，專門擅長生成包含精確文本的圖像內(nèi)容，如演示幻燈片、信息圖表等。

Q2：GLM-Image在性能測試中表現(xiàn)如何？

A：在CVTG-2K基準(zhǔn)測試中，GLM-Image獲得0.9116的單詞準(zhǔn)確度分?jǐn)?shù)，在開源模型中排名第一。在LongText-Bench測試中，英文場景得分0.952，中文場景得分0.979，在文本渲染能力方面表現(xiàn)優(yōu)秀。

Q3：普通用戶如何使用GLM-Image？成本如何？

A：智譜AI通過API提供GLM-Image服務(wù)，每生成一張圖像收費0.1元（約0.014美元）。同時在GitHub、Hugging Face和ModelScope社區(qū)開源了模型權(quán)重，用戶可以獨立部署使用。

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#華為芯片