Google推出VaultGemma模型，引領(lǐng)隱私保護(hù)AI新標(biāo)準(zhǔn)

2025-09-16 18:04

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

聽(tīng)全文

Google LLC的兩大研究部門在大語(yǔ)言模型隱私保護(hù)領(lǐng)域取得重大突破，推出了名為VaultGemma的新模型，這是全球最強(qiáng)大的"差分隱私大語(yǔ)言模型"。

VaultGemma是一個(gè)基于Google Gemma架構(gòu)的10億參數(shù)模型，采用先進(jìn)的數(shù)學(xué)算法防止敏感數(shù)據(jù)泄露。差分隱私是一種數(shù)學(xué)算法，通過(guò)確保單個(gè)信息的包含或排除不會(huì)顯著影響整體結(jié)果來(lái)保護(hù)數(shù)據(jù)共享時(shí)的隱私。該技術(shù)通過(guò)向數(shù)據(jù)集添加受控噪聲來(lái)實(shí)現(xiàn)，使任何人都難以識(shí)別其中的特定信息。

這項(xiàng)技術(shù)長(zhǎng)期以來(lái)在受監(jiān)管行業(yè)中用于保護(hù)敏感信息，在AI隱私保護(hù)方面也具有巨大潛力。然而，將其應(yīng)用于大語(yǔ)言模型一直充滿挑戰(zhàn)，導(dǎo)致模型穩(wěn)定性和效率方面的權(quán)衡。VaultGemma旨在克服這些問(wèn)題，實(shí)現(xiàn)在不犧牲性能的情況下使用差分隱私。

VaultGemma由Google Research與Google DeepMind合作開(kāi)發(fā)。研究人員在周五的博客文章中表示，他們專注于消除差分隱私訓(xùn)練中固有的計(jì)算-隱私-效用權(quán)衡問(wèn)題。

他們面臨的挑戰(zhàn)是，傳統(tǒng)的縮放定律（根據(jù)計(jì)算資源和數(shù)據(jù)大小預(yù)測(cè)AI模型性能）在應(yīng)用差分隱私時(shí)無(wú)法適用，因?yàn)樵黾拥脑肼暫透蟮呐幚硪?guī)模。因此，團(tuán)隊(duì)設(shè)計(jì)了新的縮放定律，考慮這些因素以支持開(kāi)發(fā)更大、更強(qiáng)大的私有大語(yǔ)言模型。

VaultGemma從零開(kāi)始使用差分隱私框架進(jìn)行訓(xùn)練，確保它無(wú)法記住或泄露敏感數(shù)據(jù)。研究人員表示，這是一個(gè)關(guān)鍵特性，對(duì)金融和醫(yī)療等受監(jiān)管行業(yè)的AI應(yīng)用具有重大意義。

在Google對(duì)MMLU和Big-Bench等多個(gè)基準(zhǔn)的評(píng)估中，VaultGemma展現(xiàn)出遠(yuǎn)超早期差分隱私模型的性能水平，與具有相似參數(shù)數(shù)量的非私有大語(yǔ)言模型相當(dāng)，且不犧牲隱私。例如，結(jié)果顯示它在推理和問(wèn)答任務(wù)上與早期非私有Gemma模型能力相當(dāng)，但沒(méi)有暴露訓(xùn)練數(shù)據(jù)的風(fēng)險(xiǎn)。

VaultGemma的關(guān)鍵創(chuàng)新之一是研究人員調(diào)整了訓(xùn)練協(xié)議以處理噪聲添加引起的不穩(wěn)定性。Google的研究顯示差分隱私如何改變大語(yǔ)言模型的學(xué)習(xí)動(dòng)態(tài)。因此，差分隱私模型需要包含數(shù)百萬(wàn)示例的更大批處理規(guī)模來(lái)穩(wěn)定訓(xùn)練。這通常意味著更大的計(jì)算需求，但研究人員想出了一些技巧來(lái)降低這些成本，可能降低私有模型采用的門檻。

在架構(gòu)上，VaultGemma是基于Google Gemma 2架構(gòu)的僅解碼器Transformer模型，具有26層并使用多查詢注意力機(jī)制。研究人員表示，關(guān)鍵設(shè)計(jì)選擇之一是將序列長(zhǎng)度限制為1024個(gè)Token，這有助于管理私有訓(xùn)練的密集計(jì)算需求。開(kāi)發(fā)過(guò)程由一套新穎的"差分隱私縮放定律"指導(dǎo)，為平衡計(jì)算能力、隱私預(yù)算和模型效用之間的權(quán)衡提供框架。

Google研究人員表示，他們正在Hugging Face和Kaggle上以開(kāi)源許可證提供VaultGemma及其權(quán)重和代碼庫(kù)，以普及私有AI的訪問(wèn)。這一步驟與Google通常的做法形成直接對(duì)比，其最強(qiáng)大的專有大語(yǔ)言模型如Gemini Pro是AI"黑盒子"的典型例子。

開(kāi)源VaultGemma的決定可能是Google的戰(zhàn)略舉措，試圖在不斷發(fā)展的法規(guī)面前建立AI隱私領(lǐng)域的領(lǐng)先地位，并加速在數(shù)據(jù)敏感性通常阻礙創(chuàng)新的行業(yè)中的發(fā)展。研究人員表示，Google的差分隱私縮放定律應(yīng)該適用于更大的私有大語(yǔ)言模型，可能達(dá)到萬(wàn)億參數(shù)。隨著企業(yè)應(yīng)對(duì)數(shù)據(jù)隱私問(wèn)題，VaultGemma可以作為安全AI創(chuàng)新的藍(lán)圖。

Google已在考慮與主要醫(yī)療服務(wù)提供商合作的可能性，設(shè)想VaultGemma用于分析敏感患者數(shù)據(jù)而不存在隱私泄露風(fēng)險(xiǎn)。

VaultGemma也可能對(duì)道德AI產(chǎn)生影響。通過(guò)拒絕透露其訓(xùn)練數(shù)據(jù)，該模型減輕了誤信息和偏見(jiàn)放大的風(fēng)險(xiǎn)，這可能有助于推進(jìn)負(fù)責(zé)任AI模型的發(fā)展。

Q&A

Q1：VaultGemma是什么？它有什么特殊功能？

A：VaultGemma是Google開(kāi)發(fā)的全球最強(qiáng)大的差分隱私大語(yǔ)言模型，擁有10億參數(shù)。它的特殊功能是能夠在不犧牲性能的情況下保護(hù)隱私，通過(guò)差分隱私技術(shù)確保無(wú)法記住或泄露敏感數(shù)據(jù)，適用于金融和醫(yī)療等受監(jiān)管行業(yè)。

Q2：差分隱私技術(shù)是如何工作的？

A：差分隱私是一種數(shù)學(xué)算法，通過(guò)向數(shù)據(jù)集添加受控噪聲來(lái)保護(hù)隱私。它確保單個(gè)信息的包含或排除不會(huì)顯著影響整體結(jié)果，使任何人都難以識(shí)別數(shù)據(jù)集中的特定信息，從而在數(shù)據(jù)共享時(shí)保護(hù)隱私。

Q3：VaultGemma與傳統(tǒng)大語(yǔ)言模型相比有什么優(yōu)勢(shì)？

A：VaultGemma的主要優(yōu)勢(shì)是在保持與非私有模型相當(dāng)性能的同時(shí)，提供強(qiáng)大的隱私保護(hù)。在MMLU和Big-Bench等基準(zhǔn)測(cè)試中，它的表現(xiàn)遠(yuǎn)超早期差分隱私模型，在推理和問(wèn)答任務(wù)上與早期Gemma模型能力相當(dāng)，但完全沒(méi)有數(shù)據(jù)泄露風(fēng)險(xiǎn)。

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

我要舉報(bào)

#隱私保護(hù)