微軟開源150億參數(shù)多模態(tài)推理模型Phi-4

2026-03-06 10:58

來源：澎湃新聞·澎湃號(hào)·湃客

聽全文

微軟公司今天發(fā)布了一款硬件高效的推理模型Phi-4-reasoning-vision-15B，該模型能夠處理科學(xué)圖表等多模態(tài)文件。

該模型基于兩種現(xiàn)有算法SigLIP-2和Phi-4 Reasoning構(gòu)建。SigLIP-2將圖像壓縮為神經(jīng)網(wǎng)絡(luò)可以理解的數(shù)字形式，而Phi-4 Reasoning則是微軟在去年4月開源的推理模型。

公司研究人員使用中間融合方法將這兩種算法結(jié)合起來。

人工智能模型由稱為層的人工神經(jīng)元集合組成。工程師可以為模型的所有層配備處理多模態(tài)數(shù)據(jù)的能力。在像Phi-4-reasoning-vision-15B這樣的中間融合模型中，只有部分層支持多模態(tài)處理。這種安排在輸出質(zhì)量方面有所折中，但顯著減少了硬件使用。

根據(jù)微軟的說明，用戶可以通過禁用推理功能來進(jìn)一步降低模型的基礎(chǔ)設(shè)施占用。該功能可以通過提示詞開啟或關(guān)閉。

微軟主要使用開源數(shù)據(jù)訓(xùn)練Phi-4-reasoning-vision-15B。數(shù)據(jù)包括圖像和描述這些圖像中對(duì)象的文本說明。在開始訓(xùn)練模型之前，微軟通過多步驟過程優(yōu)化了這些文件。

首先，公司識(shí)別出不需要更改的高質(zhì)量數(shù)據(jù)集并將其分離出來。然后搜索那些包含高質(zhì)量圖像但標(biāo)題不準(zhǔn)確的文件集合。微軟研究人員使用GPT-4o和o4-mini為這些圖像生成新的標(biāo)題。

公司用內(nèi)部創(chuàng)建的訓(xùn)練數(shù)據(jù)和"來自針對(duì)性收購(gòu)的高質(zhì)量數(shù)據(jù)"豐富了優(yōu)化后的開源文件。此外，還添加了模型應(yīng)該避免的行為示例。后者數(shù)據(jù)集幫助Phi-4-reasoning-vision-15B避免有害輸出。

微軟使用一套開源基準(zhǔn)將該算法與幾個(gè)類似規(guī)模的推理模型進(jìn)行比較。在包含多模態(tài)數(shù)學(xué)問題的基準(zhǔn)MathVista_Mini上，Phi-4-reasoning-vision-15B的得分比谷歌的gemma-3-12b-it高17%。該模型在超過六個(gè)其他評(píng)估中也獲得了更高分?jǐn)?shù)。

微軟研究人員在今天的博客文章中寫道："我們的性能可以與那些需要十倍或更多計(jì)算時(shí)間和Token的慢得多的模型競(jìng)爭(zhēng)，在準(zhǔn)確性方面也比同樣快速的模型更好，特別是在數(shù)學(xué)和科學(xué)推理方面。"

開發(fā)者可以使用Phi-4-reasoning-vision-15B構(gòu)建通過用戶界面與應(yīng)用程序交互的智能體。該模型能夠基于屏幕截圖推斷不同界面元素的功能。

研究人員解釋說："憑借強(qiáng)大的高分辨率感知和細(xì)粒度定位能力，Phi-4-reasoning-vision-15B是訓(xùn)練智能體模型的有力選擇，這些模型可以通過識(shí)別和定位按鈕、菜單和文本字段等交互元素來導(dǎo)航桌面、網(wǎng)絡(luò)和移動(dòng)界面。"

該模型還可以分析更復(fù)雜的視覺資產(chǎn)，如科學(xué)圖表。在微軟分享的演示中，用戶上傳了一張土星照片，并詢問Phi-4-reasoning-vision-15B為什么這顆行星看起來是傾斜的。它解釋說土星的方向取決于一年中的時(shí)間和拍攝照片的望遠(yuǎn)鏡位置。

微軟已在Hugging Face、GitHub和Azure上公開了該模型的代碼。

Q&A

Q1：Phi-4-reasoning-vision-15B模型有什么特別之處？

A：這是微軟發(fā)布的一款150億參數(shù)的多模態(tài)推理模型，采用中間融合技術(shù)，只有部分層支持多模態(tài)處理，在保持較好輸出質(zhì)量的同時(shí)顯著減少硬件使用，并且推理功能可以通過提示詞開啟或關(guān)閉。

Q2：這個(gè)模型在性能測(cè)試中表現(xiàn)如何？

A：在MathVista_Mini基準(zhǔn)測(cè)試中，Phi-4-reasoning-vision-15B比谷歌的gemma-3-12b-it模型得分高17%，在超過六個(gè)其他評(píng)估中也獲得更高分?jǐn)?shù)，特別在數(shù)學(xué)和科學(xué)推理方面表現(xiàn)出色。

Q3：Phi-4-reasoning-vision-15B可以用來做什么？

A：該模型可以處理科學(xué)圖表等多模態(tài)文件，構(gòu)建智能體與應(yīng)用程序界面交互，分析屏幕截圖并推斷界面元素功能，還能分析復(fù)雜的視覺資產(chǎn)如科學(xué)圖表，解釋圖像內(nèi)容。

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

我要舉報(bào)

#微軟