欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

<del id="k00i0"><abbr id="k00i0"></abbr></del>

<cite id="k00i0"></cite>

<button id="k00i0"></button>

<button id="k00i0"></button>

下載客戶端

登錄

+1

Gemini 2.5 Pro 實測：或?qū)⒊蔀樽顚嵱玫耐评砟Ｐ?/h1>
2025-04-01 11:59
來源：澎湃新聞·澎湃號·湃客
字號
不幸的是，Google 最新旗艦語言模型 Gemini 2.5 Pro 的發(fā)布，被吉卜力工作室 AI 圖像風波所掩蓋。也許是吸取了之前失敗發(fā)布的教訓，Google 謹慎地將其描述為"我們最智能的 AI 模型"，而不像其他 AI 實驗室那樣宣稱自己的新模型是世界最佳。
然而，實際測試表明，Gemini 2.5 Pro 確實令人印象深刻，可能是目前最優(yōu)秀的推理模型。這為許多新應(yīng)用開辟了道路，并可能使 Google 在生成式 AI 競賽中處于領(lǐng)先地位。
具備出色編程能力的超長上下文
Gemini 2.5 Pro 最突出的特點是其超長的上下文窗口和輸出長度。該模型可以處理多達 100 萬個 token (即將支持 200 萬)，使其能夠在需要時將多個長文檔和完整的代碼庫裝入提示中。該模型的輸出限制為 64,000 個 token，而其他 Gemini 模型僅為 8,000 左右。
長上下文窗口也支持更長時間的對話，因為每次與推理模型的交互都可能產(chǎn)生數(shù)萬個 token，特別是在涉及代碼、圖像和視頻時（我在使用 Claude 3.7 Sonnet 時就遇到了這個問題，它的上下文窗口為 200,000 個 token）。
例如，軟件工程師 Simon Willison 使用 Gemini 2.5 Pro 為他的網(wǎng)站創(chuàng)建了一個新功能。Willison 在博客中說："它分析了我的整個代碼庫，找出了所有需要更改的地方——總共 18 個文件，從最終的 PR 中可以看出。整個項目從開始到完成只花了約 45 分鐘，平均每個需要修改的文件不到 3 分鐘。我向它提出了很多其他編程挑戰(zhàn)，而評估這些結(jié)果的瓶頸變成了我自己的理解能力！"
令人印象深刻的多模態(tài)推理
Gemini 2.5 Pro 在非結(jié)構(gòu)化文本、圖像和視頻方面也表現(xiàn)出色。例如，我向它提供了我最近關(guān)于基于采樣搜索的文章，并要求它創(chuàng)建一個描述文中算法的 SVG 圖形。Gemini 2.5 Pro 正確地提取了文章中的關(guān)鍵信息，并為采樣和搜索過程創(chuàng)建了一個流程圖，甚至準確地呈現(xiàn)了條件步驟。（相比之下，同樣的任務(wù)使用 Claude 3.7 Sonnet 需要多次交互，而且最終達到了 token 限制。）
生成的圖像有一些視覺錯誤（箭頭位置不正確）。為了改進效果，我接著用多模態(tài)提示測試了 Gemini 2.5 Pro，給它一個渲染后的 SVG 文件截圖和代碼，要求它進行改進。結(jié)果令人印象深刻，它糾正了箭頭的問題，并提升了圖表的視覺質(zhì)量。
其他用戶在多模態(tài)提示方面也有類似的體驗。例如，在測試中，DataCamp 復現(xiàn)了 Google 博客中展示的跑步游戲示例，然后將代碼和游戲視頻錄制提供給 Gemini 2.5 Pro，并要求它對游戲代碼進行一些修改。該模型能夠?qū)σ曈X內(nèi)容進行推理，找到需要更改的代碼部分，并做出正確的修改。
然而值得注意的是，與其他生成模型一樣，Gemini 2.5 Pro 也可能出錯，比如修改不相關(guān)的文件和代碼段。指令越精確，模型出錯的風險就越低。
具有實用推理過程的數(shù)據(jù)分析
最后，我用我典型的混亂數(shù)據(jù)分析測試來評估 Gemini 2.5 Pro 的推理能力。我提供了一個包含從雅虎財經(jīng)不同股票歷史頁面復制粘貼的純文本和原始 HTML 數(shù)據(jù)混合文件。然后要求它計算從 2024 年 1 月到文件中最新日期，每月初投資 140 美元，平均分配到"超級七巨頭"股票的投資組合價值。
模型正確識別了文件中需要的股票（亞馬遜、蘋果、英偉達、微軟、特斯拉、Alphabet 和 Meta），從 HTML 數(shù)據(jù)中提取金融信息，并根據(jù)每月初的股票價格計算每次投資的價值。它以格式良好的表格形式呈現(xiàn)了每月的股票和投資組合價值，并提供了整個投資在期末的總價值明細。
更重要的是，我發(fā)現(xiàn)其推理過程非常實用。雖然不清楚 Google 是否展示 Gemini 2.5 Pro 的原始思維鏈 (CoT) token，但推理過程非常詳細。你可以清楚地看到模型是如何對數(shù)據(jù)進行推理、提取不同信息片段，并在生成答案前計算結(jié)果的。這有助于排查模型的行為，并在其犯錯時引導它朝正確的方向發(fā)展。
企業(yè)級推理？
關(guān)于 Gemini 2.5 Pro 的一個擔憂是，它只能在推理模式下使用，這意味著即使對于可以直接回答的非常簡單的提示，模型也會經(jīng)歷"思考"過程。
Gemini 2.5 Pro 目前處于預覽版階段。一旦完整模型發(fā)布并公布定價信息，我們將更好地了解基于該模型構(gòu)建企業(yè)應(yīng)用的成本。不過，隨著推理成本持續(xù)下降，我們可以期待它在規(guī)?；瘧?yīng)用中變得更加實用。
盡管 Gemini 2.5 Pro 的首次亮相可能不夠引人注目，但其功能值得關(guān)注。其超大的上下文窗口、出色的多模態(tài)推理能力和詳細的推理鏈，為從代碼庫重構(gòu)到精細數(shù)據(jù)分析等復雜的企業(yè)工作負載提供了切實的優(yōu)勢。
特別聲明
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。
+1
收藏
我要舉報

#Gemini #2.5 #Pro

查看更多

掃碼下載澎湃新聞客戶端

關(guān)于澎湃

聯(lián)系我們

澎湃矩陣

澎湃新聞微博
澎湃新聞公眾號
澎湃新聞抖音號
派生萬物開放平臺
IP SHANGHAI
SIXTH TONE

新聞報料

報料熱線: 021-962866
報料郵箱: news@thepaper.cn

滬ICP備14003370號

滬公網(wǎng)安備31010602000299號

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：31120170006

增值電信業(yè)務(wù)經(jīng)營許可證：滬B2-2017116

? 2014-2025 上海東方報業(yè)有限公司

反饋