欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

  • +1

谷歌悄悄發(fā)了“新模型”,為多模態(tài)智能應(yīng)用鋪平了道路

2026-03-18 13:26
來源:澎湃新聞·澎湃號·湃客
聽全文
字號

作者|渡川

就在昨晚,谷歌發(fā)了首個原生多模態(tài)嵌入模型Gemini Embedding 2。

跟以往的純文本基礎(chǔ)模型不同,Gemini Embedding 2的核心突破在于將文本、圖像、視頻、音頻和PDF文檔等五種模態(tài),全部映射到同一個向量空間里。

在這種情況下,模型可原生支持混合模態(tài)輸入,例如同時傳入圖片+文字、視頻+音頻等復(fù)雜組合,而且系統(tǒng)也能夠理解不同媒體之間的語義關(guān)聯(lián)。這意味著,你用一段文字去搜索相關(guān)的圖片,或者用一張圖片找到含義相似的音頻片段,都可以實現(xiàn)。

但這種嵌入模型并不是面向普通大眾使用的,而是面向AI應(yīng)用開發(fā)者、算法工程師以及擁有海量非結(jié)構(gòu)化數(shù)據(jù)的企業(yè),幫助他們大幅簡化了復(fù)雜的多模態(tài)數(shù)據(jù)處理流程,提升檢索增強生成(RAG)、語義搜索等多模態(tài)下游任務(wù)的表現(xiàn),這也將為多模態(tài)智能應(yīng)用鋪平了道路。

通常大家說的大模型(LLM / 基礎(chǔ)大模型),指的是能理解、推理、生成長文本的底座模型,表現(xiàn)出來是能夠與人對話、思考、創(chuàng)作、寫代碼;而Embedding模型屬于向量表征模型,它只做一件事——把文本 / 圖像 / 音頻轉(zhuǎn)成向量(一串讓機器讀懂的數(shù)字),而不生成內(nèi)容、不推理、不對話。

以前的機器在搜索/檢索時有個問題:文本有文本的 Embedding 模型,圖片有圖片的 Embedding 模型,音頻有音頻的 Embedding 模型,它們各自生成的向量是互相隔離的。

而谷歌發(fā)布的Gemini Embedding 2 是一款“多模態(tài)翻譯官”,它讓不同類型的數(shù)據(jù)(文字、圖片、聲音)能夠用同一種語言交流,為企業(yè)構(gòu)建下一代多模態(tài)搜索引擎和推薦系統(tǒng)提供了強大的基礎(chǔ)工具。

這款產(chǎn)品的核心在于統(tǒng)一和理解。主要特點包括:

全模態(tài)統(tǒng)一:能將文本、圖像、視頻、音頻和PDF文檔五種數(shù)據(jù)類型,直接映射到同一個向量空間 ,可以用文字去搜索圖片,或者用圖片找到含義相似的音頻片段;

原生音頻處理:可以直接處理原始音頻文件生成嵌入向量,無需先將語音轉(zhuǎn)錄成文本,避免了中間環(huán)節(jié)的信息丟失和延遲;

技術(shù)規(guī)格:文本支持8192 tokens,單次請求最多可處理6張圖片或120秒的視頻,單次讀取6頁PDF文檔。

總體來說,Gemini Embedding 2為機器創(chuàng)造了統(tǒng)一的“感官”,為下一個高級人工智能體驗時代提供了必要的多模態(tài)基礎(chǔ)。

Gemini Embedding 2最核心的受益群體,正是AI應(yīng)用開發(fā)者和算法工程師,它會極大簡化他們過去復(fù)雜的工作流程。

以前,如果AI應(yīng)用開發(fā)者要做一個能同時搜索圖片和文字的應(yīng)用,需要維護圖像模型和文本模型兩套嵌入系統(tǒng),還得寫大量代碼對齊結(jié)果,而現(xiàn)在一個模型、一個向量索引就能搞定;特別是對于需要處理音頻和視頻的開發(fā)者,以前需要先做語音轉(zhuǎn)文字、視頻抽幀等預(yù)處理,現(xiàn)在可以直接輸入原始音視頻,減少了信息丟失,也降低了開發(fā)維護成本。

此外,對于很多大型企業(yè)(如媒體、醫(yī)療、金融)來說,它們的數(shù)據(jù)資產(chǎn)中絕大部分都是非結(jié)構(gòu)化的圖片、掃描件、錄音和視頻。過去,這些數(shù)據(jù)只能在數(shù)據(jù)庫里沉睡,而Gemini Embedding 2 可以讓這些數(shù)據(jù)真正變得可搜索、可利用——比如媒體可以建立一個跨格式的資料庫,編輯直接用文字描述(如“夕陽下的海灘,帶有輕松的背景音樂”)就可以搜索出符合條件的視頻素材,無需依賴人工打標(biāo)簽。

此外,隨著大模型應(yīng)用加快,讓模型獲取最新的、多模態(tài)的知識變得至關(guān)重要。RAG 是目前的主流方案,而 Gemini Embedding 2 將 RAG 從“文本檢索”升級到了“多模態(tài)檢索”。有了 Gemini Embedding 2 的加持,當(dāng)用戶提問時,系統(tǒng)不僅能檢索相關(guān)文字,還能找出相關(guān)的圖表、視頻片段作為上下文提供給大模型,從而生成圖文并茂、信息量更大的回復(fù)。

Gemini Embedding 2的發(fā)布,其意義超越了模型本身。谷歌表示,該模型在多項文本、圖像和視頻任務(wù)的基準(zhǔn)測試中超越了當(dāng)前的主流競品,為多模態(tài)嵌入領(lǐng)域設(shè)立了新的性能標(biāo)準(zhǔn)。

此外,它還讓一系列過去難以實現(xiàn)的場景變得觸手可及。例如,在法律領(lǐng)域,它可以從數(shù)百萬條記錄中,快速檢索出包含特定圖片、音頻片段的證據(jù)文件;在推薦系統(tǒng)中,它可以基于用戶的瀏覽歷史,混合推薦相關(guān)的文章、視頻和播客,體驗更自然流暢。

總結(jié)來看,Gemini Embedding 2讓機器不僅能生成內(nèi)容,更能從底層去理解這個由多元信息構(gòu)成的世界,讓AI開啟“全感知”應(yīng)用時代。

2026年,被認為是大模型的“多模態(tài)”之年。今年前兩個月,國內(nèi)的快手、字節(jié)跳動、阿里巴巴等科技巨頭密集發(fā)布新一代多模態(tài)模型,標(biāo)志著AI視頻生成正從“盲盒式娛樂”向“精準(zhǔn)工業(yè)化生產(chǎn)”跨越。尤其Seedance2.0的發(fā)布,在全球引發(fā)關(guān)注,其最大亮點在于通過“@素材名”的全新交互范式,讓用戶能夠指定每個圖片、視頻、音頻的用途,且畫面的物理規(guī)律更合理、動作表現(xiàn)更自然流暢。

如今,全球大模型已從單一文本能力的深耕,轉(zhuǎn)向多模態(tài)原生融合的深耕。不同于以往“文本+圖像”的簡單拼接,2026年的多模態(tài)大模型普遍采用統(tǒng)一表示空間架構(gòu),能夠原生協(xié)同處理文本、圖像、音頻、視頻,真正實現(xiàn)跨模態(tài)的理解、生成與交互。

Gemini Embedding 2 代表的底層基礎(chǔ)設(shè)施的革新,則它讓機器“讀懂”世界的方式變得統(tǒng)一和高效。

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司