- +1
微軟開源150億參數(shù)多模態(tài)推理模型Phi-4
微軟公司今天發(fā)布了一款硬件高效的推理模型Phi-4-reasoning-vision-15B,該模型能夠處理科學(xué)圖表等多模態(tài)文件。
該模型基于兩種現(xiàn)有算法SigLIP-2和Phi-4 Reasoning構(gòu)建。SigLIP-2將圖像壓縮為神經(jīng)網(wǎng)絡(luò)可以理解的數(shù)字形式,而Phi-4 Reasoning則是微軟在去年4月開源的推理模型。
公司研究人員使用中間融合方法將這兩種算法結(jié)合起來。
人工智能模型由稱為層的人工神經(jīng)元集合組成。工程師可以為模型的所有層配備處理多模態(tài)數(shù)據(jù)的能力。在像Phi-4-reasoning-vision-15B這樣的中間融合模型中,只有部分層支持多模態(tài)處理。這種安排在輸出質(zhì)量方面有所折中,但顯著減少了硬件使用。
根據(jù)微軟的說明,用戶可以通過禁用推理功能來進(jìn)一步降低模型的基礎(chǔ)設(shè)施占用。該功能可以通過提示詞開啟或關(guān)閉。
微軟主要使用開源數(shù)據(jù)訓(xùn)練Phi-4-reasoning-vision-15B。數(shù)據(jù)包括圖像和描述這些圖像中對(duì)象的文本說明。在開始訓(xùn)練模型之前,微軟通過多步驟過程優(yōu)化了這些文件。
首先,公司識(shí)別出不需要更改的高質(zhì)量數(shù)據(jù)集并將其分離出來。然后搜索那些包含高質(zhì)量圖像但標(biāo)題不準(zhǔn)確的文件集合。微軟研究人員使用GPT-4o和o4-mini為這些圖像生成新的標(biāo)題。
公司用內(nèi)部創(chuàng)建的訓(xùn)練數(shù)據(jù)和"來自針對(duì)性收購(gòu)的高質(zhì)量數(shù)據(jù)"豐富了優(yōu)化后的開源文件。此外,還添加了模型應(yīng)該避免的行為示例。后者數(shù)據(jù)集幫助Phi-4-reasoning-vision-15B避免有害輸出。
微軟使用一套開源基準(zhǔn)將該算法與幾個(gè)類似規(guī)模的推理模型進(jìn)行比較。在包含多模態(tài)數(shù)學(xué)問題的基準(zhǔn)MathVista_Mini上,Phi-4-reasoning-vision-15B的得分比谷歌的gemma-3-12b-it高17%。該模型在超過六個(gè)其他評(píng)估中也獲得了更高分?jǐn)?shù)。
微軟研究人員在今天的博客文章中寫道:"我們的性能可以與那些需要十倍或更多計(jì)算時(shí)間和Token的慢得多的模型競(jìng)爭(zhēng),在準(zhǔn)確性方面也比同樣快速的模型更好,特別是在數(shù)學(xué)和科學(xué)推理方面。"
開發(fā)者可以使用Phi-4-reasoning-vision-15B構(gòu)建通過用戶界面與應(yīng)用程序交互的智能體。該模型能夠基于屏幕截圖推斷不同界面元素的功能。
研究人員解釋說:"憑借強(qiáng)大的高分辨率感知和細(xì)粒度定位能力,Phi-4-reasoning-vision-15B是訓(xùn)練智能體模型的有力選擇,這些模型可以通過識(shí)別和定位按鈕、菜單和文本字段等交互元素來導(dǎo)航桌面、網(wǎng)絡(luò)和移動(dòng)界面。"
該模型還可以分析更復(fù)雜的視覺資產(chǎn),如科學(xué)圖表。在微軟分享的演示中,用戶上傳了一張土星照片,并詢問Phi-4-reasoning-vision-15B為什么這顆行星看起來是傾斜的。它解釋說土星的方向取決于一年中的時(shí)間和拍攝照片的望遠(yuǎn)鏡位置。
微軟已在Hugging Face、GitHub和Azure上公開了該模型的代碼。
Q&A
Q1:Phi-4-reasoning-vision-15B模型有什么特別之處?
A:這是微軟發(fā)布的一款150億參數(shù)的多模態(tài)推理模型,采用中間融合技術(shù),只有部分層支持多模態(tài)處理,在保持較好輸出質(zhì)量的同時(shí)顯著減少硬件使用,并且推理功能可以通過提示詞開啟或關(guān)閉。
Q2:這個(gè)模型在性能測(cè)試中表現(xiàn)如何?
A:在MathVista_Mini基準(zhǔn)測(cè)試中,Phi-4-reasoning-vision-15B比谷歌的gemma-3-12b-it模型得分高17%,在超過六個(gè)其他評(píng)估中也獲得更高分?jǐn)?shù),特別在數(shù)學(xué)和科學(xué)推理方面表現(xiàn)出色。
Q3:Phi-4-reasoning-vision-15B可以用來做什么?
A:該模型可以處理科學(xué)圖表等多模態(tài)文件,構(gòu)建智能體與應(yīng)用程序界面交互,分析屏幕截圖并推斷界面元素功能,還能分析復(fù)雜的視覺資產(chǎn)如科學(xué)圖表,解釋圖像內(nèi)容。
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




