國產(chǎn)大模型新年動作頻頻：智譜聯(lián)手華為開源新模型，MiniMax開源評測集

澎湃新聞記者范佳來

2026-01-14 14:12

來源：澎湃新聞

? 10%公司 >

聽全文

AI產(chǎn)業(yè)的迭代可謂日新月異，2026年甫一開始，國產(chǎn)開源大模型就進入了“上新潮”。

1月14日，澎湃新聞記者獲悉，最近上市的AI獨角獸智譜（02513.HK）聯(lián)合華為開源新一代圖像生成模型GLM-Image，模型基于昇騰Atlas 800T A2設(shè)備和昇思MindSpore AI框架完成從數(shù)據(jù)到訓(xùn)練的全流程，是首個在國產(chǎn)芯片上完成全程訓(xùn)練的SOTA多模態(tài)模型。

據(jù)智譜方面介紹，GLM-Image 采用自主創(chuàng)新的“自回歸+擴散解碼器”混合架構(gòu)，實現(xiàn)圖像生成與語言模型的聯(lián)合，是智譜面向以Nano Banana Pro為代表的新一代“認知型生成”技術(shù)范式的一次重要探索。

在架構(gòu)特點方面，面對傳統(tǒng)模型在“理解復(fù)雜指令”與“精準繪制文字”上難以兼顧的問題，GLM-Image引入“自回歸+擴散解碼器”混合架構(gòu)，融合9B的自回歸模型與7B的DiT擴散解碼器。通過改進Tokenizer策略，GLM-Image能夠自適應(yīng)處理多種分辨率，原生支持從1024x1024到2048×2048尺寸的任意比例圖像的生成任務(wù)，無需重新訓(xùn)練。

值得注意的是，在上市后智譜股價持續(xù)迎來飆升，截至14日港股午盤，漲16.83%，其發(fā)行價定為116.2港元/股，這也意味著上市后智譜股價已經(jīng)大漲超80%。

在和華為合作方面，據(jù)智譜披露，依托昇騰NPU和昇思MindSpore AI框架，使用動態(tài)圖多級流水下發(fā)、高性能融合算子、多流并行等特性，公司自研模型訓(xùn)練套件，全面優(yōu)化數(shù)據(jù)預(yù)處理、預(yù)訓(xùn)練、SFT和RL的端到端流程。

通過動態(tài)圖的多級流水優(yōu)化機制，將Host側(cè)算子下發(fā)的關(guān)鍵階段流水化并高度重疊，消除下發(fā)瓶頸；通過多流并行策略，通信和計算互掩，打破文本梯度同步、圖像特征廣播等操作的通信墻，使用AdamW EMA、COC、RMS Norm等昇騰親和的高性能融合算子，同步提升訓(xùn)練的穩(wěn)定性和性能。

據(jù)了解，GLM-Image是首個在國產(chǎn)芯片上完成全流程訓(xùn)練的SOTA多模態(tài)模型，驗證在國產(chǎn)全棧算力底座上訓(xùn)練高性能多模態(tài)生成模型的可行性。

不僅僅是智譜。多家中國AI企業(yè)新年以來動作頻頻。同樣在1月14日，澎湃新聞記者獲悉，MiniMax正式開源首個面向Coding Agent的系統(tǒng)性評測集OctoCodingBench，試圖為下一代AGI的落地標準給出更清晰的答案。評測結(jié)果顯示，部分開源模型在過程合規(guī)指標上已快速逼近甚至超越部分閉源模型。

1月12日，DeepSeek發(fā)布一篇新論文《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》（基于可擴展查找的條件記憶：大語言模型稀疏性的新維度），梁文鋒位列作者名單中，這篇論文為北京大學(xué)和DeepSeek共同完成。據(jù)分析，這篇論文的核心直指當前大語言模型存在的記憶力“短板”，提出了“條件記憶”這一概念。

行業(yè)普遍猜測，DeepSeek的下一代模型V4或?qū)⒃诮衲甏汗?jié)前后正式發(fā)布。

此外，愛詩科技發(fā)布最新視頻模型PixVerse R1，是全球首個支持最高1080P分辨率通用實時世界模型，據(jù)介紹，這款新模型首次將視頻生成的延遲從“秒級”降至“即時”響應(yīng)，實現(xiàn)“所想即所見、所說即所現(xiàn)”的實時交互體驗，標志AIGC領(lǐng)域的視頻生成從“靜態(tài)輸出”邁入“實時交互”的全新階段。PixVerse R1通過實現(xiàn)連貫且實時的生成，代表全世界范圍內(nèi)視聽媒體領(lǐng)域的重要演進。

1月13日，沉寂已久的另一家大模型獨角獸“百川智能”宣布開源新一代醫(yī)療大模型 Baichuan—M3，其在全球最權(quán)威的醫(yī)療AI評測HealthBench中以65.1分的綜合成績位列全球第一；在專門考驗復(fù)雜決策能力的HealthBench Hard上，以44.4分的成績奪冠。這一成績首次在醫(yī)療領(lǐng)域?qū)崿F(xiàn)對GPT-5.2的超越。

對于近期的大模型熱潮，百川智能創(chuàng)始人兼CEO、原搜狗CEO王小川當天在接受媒體采訪時表示，“上市的兩家（智譜、MiniMax）是踩在了通用模型的技術(shù)紅利和國家對于科技強國扶持的基礎(chǔ)上，這方向是沒有問題的，只是他們的市值和商業(yè)化能力并不匹配?！?/p>

王小川表示，未來百川也會走到上市這條道路上，但并沒有在進程中，他透露可能會在2027年啟動上市計劃。目前公司賬上還有30億元。

責(zé)任編輯：是冬冬

圖片編輯：陳飛燕

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#智譜 #大模型 #MiniMax