- +1
Gemini 2.5 Pro 實測:或?qū)⒊蔀樽顚嵱玫耐评砟P?/h1>2025-04-01 11:59來源:澎湃新聞·澎湃號·湃客字號不幸的是,Google 最新旗艦語言模型 Gemini 2.5 Pro 的發(fā)布,被吉卜力工作室 AI 圖像風波所掩蓋。也許是吸取了之前失敗發(fā)布的教訓,Google 謹慎地將其描述為"我們最智能的 AI 模型",而不像其他 AI 實驗室那樣宣稱自己的新模型是世界最佳。
然而,實際測試表明,Gemini 2.5 Pro 確實令人印象深刻,可能是目前最優(yōu)秀的推理模型。這為許多新應(yīng)用開辟了道路,并可能使 Google 在生成式 AI 競賽中處于領(lǐng)先地位。
具備出色編程能力的超長上下文
Gemini 2.5 Pro 最突出的特點是其超長的上下文窗口和輸出長度。該模型可以處理多達 100 萬個 token (即將支持 200 萬),使其能夠在需要時將多個長文檔和完整的代碼庫裝入提示中。該模型的輸出限制為 64,000 個 token,而其他 Gemini 模型僅為 8,000 左右。
長上下文窗口也支持更長時間的對話,因為每次與推理模型的交互都可能產(chǎn)生數(shù)萬個 token,特別是在涉及代碼、圖像和視頻時(我在使用 Claude 3.7 Sonnet 時就遇到了這個問題,它的上下文窗口為 200,000 個 token)。
例如,軟件工程師 Simon Willison 使用 Gemini 2.5 Pro 為他的網(wǎng)站創(chuàng)建了一個新功能。Willison 在博客中說:"它分析了我的整個代碼庫,找出了所有需要更改的地方——總共 18 個文件,從最終的 PR 中可以看出。整個項目從開始到完成只花了約 45 分鐘,平均每個需要修改的文件不到 3 分鐘。我向它提出了很多其他編程挑戰(zhàn),而評估這些結(jié)果的瓶頸變成了我自己的理解能力!"
令人印象深刻的多模態(tài)推理
Gemini 2.5 Pro 在非結(jié)構(gòu)化文本、圖像和視頻方面也表現(xiàn)出色。例如,我向它提供了我最近關(guān)于基于采樣搜索的文章,并要求它創(chuàng)建一個描述文中算法的 SVG 圖形。Gemini 2.5 Pro 正確地提取了文章中的關(guān)鍵信息,并為采樣和搜索過程創(chuàng)建了一個流程圖,甚至準確地呈現(xiàn)了條件步驟。(相比之下,同樣的任務(wù)使用 Claude 3.7 Sonnet 需要多次交互,而且最終達到了 token 限制。)
生成的圖像有一些視覺錯誤(箭頭位置不正確)。為了改進效果,我接著用多模態(tài)提示測試了 Gemini 2.5 Pro,給它一個渲染后的 SVG 文件截圖和代碼,要求它進行改進。結(jié)果令人印象深刻,它糾正了箭頭的問題,并提升了圖表的視覺質(zhì)量。
其他用戶在多模態(tài)提示方面也有類似的體驗。例如,在測試中,DataCamp 復現(xiàn)了 Google 博客中展示的跑步游戲示例,然后將代碼和游戲視頻錄制提供給 Gemini 2.5 Pro,并要求它對游戲代碼進行一些修改。該模型能夠?qū)σ曈X內(nèi)容進行推理,找到需要更改的代碼部分,并做出正確的修改。
然而值得注意的是,與其他生成模型一樣,Gemini 2.5 Pro 也可能出錯,比如修改不相關(guān)的文件和代碼段。指令越精確,模型出錯的風險就越低。
具有實用推理過程的數(shù)據(jù)分析
最后,我用我典型的混亂數(shù)據(jù)分析測試來評估 Gemini 2.5 Pro 的推理能力。我提供了一個包含從雅虎財經(jīng)不同股票歷史頁面復制粘貼的純文本和原始 HTML 數(shù)據(jù)混合文件。然后要求它計算從 2024 年 1 月到文件中最新日期,每月初投資 140 美元,平均分配到"超級七巨頭"股票的投資組合價值。
模型正確識別了文件中需要的股票(亞馬遜、蘋果、英偉達、微軟、特斯拉、Alphabet 和 Meta),從 HTML 數(shù)據(jù)中提取金融信息,并根據(jù)每月初的股票價格計算每次投資的價值。它以格式良好的表格形式呈現(xiàn)了每月的股票和投資組合價值,并提供了整個投資在期末的總價值明細。
更重要的是,我發(fā)現(xiàn)其推理過程非常實用。雖然不清楚 Google 是否展示 Gemini 2.5 Pro 的原始思維鏈 (CoT) token,但推理過程非常詳細。你可以清楚地看到模型是如何對數(shù)據(jù)進行推理、提取不同信息片段,并在生成答案前計算結(jié)果的。這有助于排查模型的行為,并在其犯錯時引導它朝正確的方向發(fā)展。
企業(yè)級推理?
關(guān)于 Gemini 2.5 Pro 的一個擔憂是,它只能在推理模式下使用,這意味著即使對于可以直接回答的非常簡單的提示,模型也會經(jīng)歷"思考"過程。
Gemini 2.5 Pro 目前處于預覽版階段。一旦完整模型發(fā)布并公布定價信息,我們將更好地了解基于該模型構(gòu)建企業(yè)應(yīng)用的成本。不過,隨著推理成本持續(xù)下降,我們可以期待它在規(guī)?;瘧?yīng)用中變得更加實用。
盡管 Gemini 2.5 Pro 的首次亮相可能不夠引人注目,但其功能值得關(guān)注。其超大的上下文窗口、出色的多模態(tài)推理能力和詳細的推理鏈,為從代碼庫重構(gòu)到精細數(shù)據(jù)分析等復雜的企業(yè)工作負載提供了切實的優(yōu)勢。
特別聲明本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。
+1收藏我要舉報
不幸的是,Google 最新旗艦語言模型 Gemini 2.5 Pro 的發(fā)布,被吉卜力工作室 AI 圖像風波所掩蓋。也許是吸取了之前失敗發(fā)布的教訓,Google 謹慎地將其描述為"我們最智能的 AI 模型",而不像其他 AI 實驗室那樣宣稱自己的新模型是世界最佳。
然而,實際測試表明,Gemini 2.5 Pro 確實令人印象深刻,可能是目前最優(yōu)秀的推理模型。這為許多新應(yīng)用開辟了道路,并可能使 Google 在生成式 AI 競賽中處于領(lǐng)先地位。
具備出色編程能力的超長上下文
Gemini 2.5 Pro 最突出的特點是其超長的上下文窗口和輸出長度。該模型可以處理多達 100 萬個 token (即將支持 200 萬),使其能夠在需要時將多個長文檔和完整的代碼庫裝入提示中。該模型的輸出限制為 64,000 個 token,而其他 Gemini 模型僅為 8,000 左右。
長上下文窗口也支持更長時間的對話,因為每次與推理模型的交互都可能產(chǎn)生數(shù)萬個 token,特別是在涉及代碼、圖像和視頻時(我在使用 Claude 3.7 Sonnet 時就遇到了這個問題,它的上下文窗口為 200,000 個 token)。
例如,軟件工程師 Simon Willison 使用 Gemini 2.5 Pro 為他的網(wǎng)站創(chuàng)建了一個新功能。Willison 在博客中說:"它分析了我的整個代碼庫,找出了所有需要更改的地方——總共 18 個文件,從最終的 PR 中可以看出。整個項目從開始到完成只花了約 45 分鐘,平均每個需要修改的文件不到 3 分鐘。我向它提出了很多其他編程挑戰(zhàn),而評估這些結(jié)果的瓶頸變成了我自己的理解能力!"
令人印象深刻的多模態(tài)推理
Gemini 2.5 Pro 在非結(jié)構(gòu)化文本、圖像和視頻方面也表現(xiàn)出色。例如,我向它提供了我最近關(guān)于基于采樣搜索的文章,并要求它創(chuàng)建一個描述文中算法的 SVG 圖形。Gemini 2.5 Pro 正確地提取了文章中的關(guān)鍵信息,并為采樣和搜索過程創(chuàng)建了一個流程圖,甚至準確地呈現(xiàn)了條件步驟。(相比之下,同樣的任務(wù)使用 Claude 3.7 Sonnet 需要多次交互,而且最終達到了 token 限制。)
生成的圖像有一些視覺錯誤(箭頭位置不正確)。為了改進效果,我接著用多模態(tài)提示測試了 Gemini 2.5 Pro,給它一個渲染后的 SVG 文件截圖和代碼,要求它進行改進。結(jié)果令人印象深刻,它糾正了箭頭的問題,并提升了圖表的視覺質(zhì)量。
其他用戶在多模態(tài)提示方面也有類似的體驗。例如,在測試中,DataCamp 復現(xiàn)了 Google 博客中展示的跑步游戲示例,然后將代碼和游戲視頻錄制提供給 Gemini 2.5 Pro,并要求它對游戲代碼進行一些修改。該模型能夠?qū)σ曈X內(nèi)容進行推理,找到需要更改的代碼部分,并做出正確的修改。
然而值得注意的是,與其他生成模型一樣,Gemini 2.5 Pro 也可能出錯,比如修改不相關(guān)的文件和代碼段。指令越精確,模型出錯的風險就越低。
具有實用推理過程的數(shù)據(jù)分析
最后,我用我典型的混亂數(shù)據(jù)分析測試來評估 Gemini 2.5 Pro 的推理能力。我提供了一個包含從雅虎財經(jīng)不同股票歷史頁面復制粘貼的純文本和原始 HTML 數(shù)據(jù)混合文件。然后要求它計算從 2024 年 1 月到文件中最新日期,每月初投資 140 美元,平均分配到"超級七巨頭"股票的投資組合價值。
模型正確識別了文件中需要的股票(亞馬遜、蘋果、英偉達、微軟、特斯拉、Alphabet 和 Meta),從 HTML 數(shù)據(jù)中提取金融信息,并根據(jù)每月初的股票價格計算每次投資的價值。它以格式良好的表格形式呈現(xiàn)了每月的股票和投資組合價值,并提供了整個投資在期末的總價值明細。
更重要的是,我發(fā)現(xiàn)其推理過程非常實用。雖然不清楚 Google 是否展示 Gemini 2.5 Pro 的原始思維鏈 (CoT) token,但推理過程非常詳細。你可以清楚地看到模型是如何對數(shù)據(jù)進行推理、提取不同信息片段,并在生成答案前計算結(jié)果的。這有助于排查模型的行為,并在其犯錯時引導它朝正確的方向發(fā)展。
企業(yè)級推理?
關(guān)于 Gemini 2.5 Pro 的一個擔憂是,它只能在推理模式下使用,這意味著即使對于可以直接回答的非常簡單的提示,模型也會經(jīng)歷"思考"過程。
Gemini 2.5 Pro 目前處于預覽版階段。一旦完整模型發(fā)布并公布定價信息,我們將更好地了解基于該模型構(gòu)建企業(yè)應(yīng)用的成本。不過,隨著推理成本持續(xù)下降,我們可以期待它在規(guī)?;瘧?yīng)用中變得更加實用。
盡管 Gemini 2.5 Pro 的首次亮相可能不夠引人注目,但其功能值得關(guān)注。其超大的上下文窗口、出色的多模態(tài)推理能力和詳細的推理鏈,為從代碼庫重構(gòu)到精細數(shù)據(jù)分析等復雜的企業(yè)工作負載提供了切實的優(yōu)勢。
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




