谷歌悄悄發(fā)了“新模型”，為多模態(tài)智能應(yīng)用鋪平了道路

2026-03-18 13:26

來源：澎湃新聞·澎湃號·湃客

聽全文

作者｜渡川

就在昨晚，谷歌發(fā)了首個原生多模態(tài)嵌入模型Gemini Embedding 2。

跟以往的純文本基礎(chǔ)模型不同，Gemini Embedding 2的核心突破在于將文本、圖像、視頻、音頻和PDF文檔等五種模態(tài)，全部映射到同一個向量空間里。

在這種情況下，模型可原生支持混合模態(tài)輸入，例如同時傳入圖片+文字、視頻+音頻等復(fù)雜組合，而且系統(tǒng)也能夠理解不同媒體之間的語義關(guān)聯(lián)。這意味著，你用一段文字去搜索相關(guān)的圖片，或者用一張圖片找到含義相似的音頻片段，都可以實現(xiàn)。

但這種嵌入模型并不是面向普通大眾使用的，而是面向AI應(yīng)用開發(fā)者、算法工程師以及擁有海量非結(jié)構(gòu)化數(shù)據(jù)的企業(yè)，幫助他們大幅簡化了復(fù)雜的多模態(tài)數(shù)據(jù)處理流程，提升檢索增強生成（RAG）、語義搜索等多模態(tài)下游任務(wù)的表現(xiàn)，這也將為多模態(tài)智能應(yīng)用鋪平了道路。

通常大家說的大模型（LLM / 基礎(chǔ)大模型），指的是能理解、推理、生成長文本的底座模型，表現(xiàn)出來是能夠與人對話、思考、創(chuàng)作、寫代碼；而Embedding模型屬于向量表征模型，它只做一件事——把文本 / 圖像 / 音頻轉(zhuǎn)成向量（一串讓機器讀懂的數(shù)字），而不生成內(nèi)容、不推理、不對話。

以前的機器在搜索/檢索時有個問題：文本有文本的 Embedding 模型，圖片有圖片的 Embedding 模型，音頻有音頻的 Embedding 模型，它們各自生成的向量是互相隔離的。

而谷歌發(fā)布的Gemini Embedding 2 是一款“多模態(tài)翻譯官”，它讓不同類型的數(shù)據(jù)（文字、圖片、聲音）能夠用同一種語言交流，為企業(yè)構(gòu)建下一代多模態(tài)搜索引擎和推薦系統(tǒng)提供了強大的基礎(chǔ)工具。

這款產(chǎn)品的核心在于統(tǒng)一和理解。主要特點包括：

全模態(tài)統(tǒng)一：能將文本、圖像、視頻、音頻和PDF文檔五種數(shù)據(jù)類型，直接映射到同一個向量空間，可以用文字去搜索圖片，或者用圖片找到含義相似的音頻片段；

原生音頻處理：可以直接處理原始音頻文件生成嵌入向量，無需先將語音轉(zhuǎn)錄成文本，避免了中間環(huán)節(jié)的信息丟失和延遲；

技術(shù)規(guī)格：文本支持8192 tokens，單次請求最多可處理6張圖片或120秒的視頻，單次讀取6頁PDF文檔。

總體來說，Gemini Embedding 2為機器創(chuàng)造了統(tǒng)一的“感官”，為下一個高級人工智能體驗時代提供了必要的多模態(tài)基礎(chǔ)。

Gemini Embedding 2最核心的受益群體，正是AI應(yīng)用開發(fā)者和算法工程師，它會極大簡化他們過去復(fù)雜的工作流程。

以前，如果AI應(yīng)用開發(fā)者要做一個能同時搜索圖片和文字的應(yīng)用，需要維護圖像模型和文本模型兩套嵌入系統(tǒng)，還得寫大量代碼對齊結(jié)果，而現(xiàn)在一個模型、一個向量索引就能搞定；特別是對于需要處理音頻和視頻的開發(fā)者，以前需要先做語音轉(zhuǎn)文字、視頻抽幀等預(yù)處理，現(xiàn)在可以直接輸入原始音視頻，減少了信息丟失，也降低了開發(fā)維護成本。

此外，對于很多大型企業(yè)（如媒體、醫(yī)療、金融）來說，它們的數(shù)據(jù)資產(chǎn)中絕大部分都是非結(jié)構(gòu)化的圖片、掃描件、錄音和視頻。過去，這些數(shù)據(jù)只能在數(shù)據(jù)庫里沉睡，而Gemini Embedding 2 可以讓這些數(shù)據(jù)真正變得可搜索、可利用——比如媒體可以建立一個跨格式的資料庫，編輯直接用文字描述（如“夕陽下的海灘，帶有輕松的背景音樂”）就可以搜索出符合條件的視頻素材，無需依賴人工打標(biāo)簽。

此外，隨著大模型應(yīng)用加快，讓模型獲取最新的、多模態(tài)的知識變得至關(guān)重要。RAG 是目前的主流方案，而 Gemini Embedding 2 將 RAG 從“文本檢索”升級到了“多模態(tài)檢索”。有了 Gemini Embedding 2 的加持，當(dāng)用戶提問時，系統(tǒng)不僅能檢索相關(guān)文字，還能找出相關(guān)的圖表、視頻片段作為上下文提供給大模型，從而生成圖文并茂、信息量更大的回復(fù)。

Gemini Embedding 2的發(fā)布，其意義超越了模型本身。谷歌表示，該模型在多項文本、圖像和視頻任務(wù)的基準(zhǔn)測試中超越了當(dāng)前的主流競品，為多模態(tài)嵌入領(lǐng)域設(shè)立了新的性能標(biāo)準(zhǔn)。

此外，它還讓一系列過去難以實現(xiàn)的場景變得觸手可及。例如，在法律領(lǐng)域，它可以從數(shù)百萬條記錄中，快速檢索出包含特定圖片、音頻片段的證據(jù)文件；在推薦系統(tǒng)中，它可以基于用戶的瀏覽歷史，混合推薦相關(guān)的文章、視頻和播客，體驗更自然流暢。

總結(jié)來看，Gemini Embedding 2讓機器不僅能生成內(nèi)容，更能從底層去理解這個由多元信息構(gòu)成的世界，讓AI開啟“全感知”應(yīng)用時代。

2026年，被認為是大模型的“多模態(tài)”之年。今年前兩個月，國內(nèi)的快手、字節(jié)跳動、阿里巴巴等科技巨頭密集發(fā)布新一代多模態(tài)模型，標(biāo)志著AI視頻生成正從“盲盒式娛樂”向“精準(zhǔn)工業(yè)化生產(chǎn)”跨越。尤其Seedance2.0的發(fā)布，在全球引發(fā)關(guān)注，其最大亮點在于通過“@素材名”的全新交互范式，讓用戶能夠指定每個圖片、視頻、音頻的用途，且畫面的物理規(guī)律更合理、動作表現(xiàn)更自然流暢。

如今，全球大模型已從單一文本能力的深耕，轉(zhuǎn)向多模態(tài)原生融合的深耕。不同于以往“文本+圖像”的簡單拼接，2026年的多模態(tài)大模型普遍采用統(tǒng)一表示空間架構(gòu)，能夠原生協(xié)同處理文本、圖像、音頻、視頻，真正實現(xiàn)跨模態(tài)的理解、生成與交互。

Gemini Embedding 2 代表的底層基礎(chǔ)設(shè)施的革新，則它讓機器“讀懂”世界的方式變得統(tǒng)一和高效。

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#Google #大模型