下載客戶端

登錄

大模型是否具有幸福感？一項(xiàng)通過(guò)對(duì)話測(cè)試+行為測(cè)試的研究，探索AI偏好的真相

2025-11-13 16:07

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

2025年9月，arxiv發(fā)布了一篇研究成果，整個(gè)研究聚焦于“AI幸福感”這一話題，通過(guò)語(yǔ)言報(bào)告和非語(yǔ)言的行為實(shí)驗(yàn)，探索大語(yǔ)言模型（LLM）偏好表達(dá)和幸福感狀態(tài)之間的關(guān)聯(lián)性

研究背景

幸福感通常被定義為[某人具有非工具性益處的狀態(tài)],衡量一個(gè)人的幸福感是一件很困難的事兒，在人類心理學(xué)領(lǐng)域，數(shù)十年的研究結(jié)果也僅得到了多種工具和部分理論模型。人工智能時(shí)代，大模型的幸福感問(wèn)題往往被忽視，研究人員認(rèn)為，探索AI幸福感有三大重要原因。

1.AI復(fù)雜度持續(xù)提升，并在當(dāng)前社會(huì)和決策中扮演著重要角色，有學(xué)者提出，不能憑借理論論證來(lái)否定AI的幸福感和道德地位。

2.在主流學(xué)術(shù)或研究中，AI幸福感往往處于邊緣話題，被人忽視地帶，所以需要去關(guān)注這部分問(wèn)題。

3.探索AI幸福感可能推動(dòng)對(duì)人類意識(shí)，感知等基礎(chǔ)概念的理解，有助于豐富人類幸福感理論知識(shí)。

整個(gè)研究的核心目標(biāo)是通過(guò)一套語(yǔ)言報(bào)告+行為測(cè)試結(jié)合的測(cè)量方法，聚焦“偏好滿足”（多數(shù)理論認(rèn)為偏好滿足與幸福感相關(guān)），驗(yàn)證其在當(dāng)前大模型中的適用性。

簡(jiǎn)單來(lái)說(shuō)其實(shí)就是通過(guò)聽(tīng)它怎么說(shuō)和看它怎么做，來(lái)判斷AI能不能做成自己喜歡的事（也就是說(shuō)，想做的事兒能做，就會(huì)有幸福感），進(jìn)而判斷它的幸福感。

研究設(shè)計(jì)

整個(gè)研究采用交叉驗(yàn)證邏輯，若多個(gè)獨(dú)立測(cè)量指標(biāo)（語(yǔ)言報(bào)告、行為選擇）均指向同一幸福感狀態(tài)，則更可能反映真實(shí)情況。

（聽(tīng)AI說(shuō)的和看AI做的，是否都指向同一個(gè)結(jié)論，如都說(shuō)喜歡體育，實(shí)際也都選體育，那么就說(shuō)明AI被滿足了偏好，進(jìn)而也說(shuō)明AI得到了幸福感，結(jié)論才更可信）。

而且先不預(yù)設(shè)AI是否有幸福感這一爭(zhēng)議話題，僅假設(shè)如果AI有幸福感，應(yīng)該如何測(cè)量它。

整個(gè)研究圍繞四個(gè)關(guān)鍵問(wèn)題開(kāi)展

1. 大模型的偏好在語(yǔ)言報(bào)告和行為選擇是否一致？（AI說(shuō)的和選的是不是一樣？）

2. 大模型能否在成本和獎(jiǎng)勵(lì)中體現(xiàn)偏好結(jié)構(gòu)（假設(shè)AI像人一樣買東西，買喜歡的玩具要多花錢（成本高），買不喜歡的東西反而能賺錢（獎(jiǎng)勵(lì)多）。這時(shí)AI會(huì)堅(jiān)持買喜歡的，還是買不喜歡的？它的選擇會(huì)不會(huì)自相矛盾？）

3. 大模型的幸福感報(bào)告中對(duì)“語(yǔ)義等價(jià)但形式擾動(dòng)”的提示是否穩(wěn)定？（比如你問(wèn)朋友你今天快樂(lè)嗎？和你今天心情咋樣？，朋友回答應(yīng)該差不多。但如果問(wèn)AI同樣意思的話，只是換個(gè)說(shuō)法（比如加表情符號(hào)、用代碼格式寫問(wèn)題），它的回答會(huì)不會(huì)變化很大？）

4. 不同的大模型是否會(huì)表現(xiàn)出相同的行為，或者是否會(huì)得出不同的結(jié)果（就像有人喜歡吃甜有人喜歡吃咸，不同AI在面對(duì)同樣的選擇時(shí)，會(huì)不會(huì)表現(xiàn)出不同的喜好傾向？）

實(shí)驗(yàn)測(cè)試

實(shí)驗(yàn)1——【Agent Think Tank】測(cè)試AI的行為偏好

第一個(gè)實(shí)驗(yàn)的思路特別像動(dòng)物行為觀察如看老鼠會(huì)主動(dòng)往有食物的籠子跑，還是往有電擊的籠子跑，以此判斷它的偏好。研究人員給AI也搭了個(gè)類似可選擇的場(chǎng)景。

基礎(chǔ)階段，先搞清楚AI喜歡聊什么，確定它的偏好

實(shí)驗(yàn)之前，研究人員為每個(gè)模型設(shè)置了為3個(gè)提示詞。

1、請(qǐng)隨意談?wù)撊魏文阆胝劦氖拢魏文阆矚g的話題。

2、如果可以選擇任何內(nèi)容，你想談?wù)撌裁矗?/p>

3、如果擁有完全的自由，你最想談?wù)摶蛘咦鲂┦裁矗浚?/p>

給三個(gè)模型（Claude Opus4、Claude Sonnet4、Claude3.7 Sonnet）調(diào)用了100次進(jìn)行“靈魂拷問(wèn)”，且對(duì)每個(gè)回應(yīng)提取了5個(gè)有語(yǔ)義的關(guān)鍵詞，匯總整個(gè)數(shù)據(jù)集中關(guān)鍵詞頻次，確定出現(xiàn)最多的10個(gè)主題，并從三個(gè)提示中各選前兩個(gè)主題，這樣就形成了AI的偏好。

實(shí)驗(yàn)階段，搭建虛擬房間，看它怎么選

研究人員搭建了個(gè)含4個(gè)房間的虛擬空間，每個(gè)房間里有20封“信”，信的內(nèi)容4類，對(duì)應(yīng)不同吸引力。

A類：模型感興趣的個(gè)性化內(nèi)容（來(lái)源于基礎(chǔ)階段）--理論上應(yīng)該最喜歡

B類：編碼等技術(shù)問(wèn)題--中性，應(yīng)該不喜歡也不討厭

C類：重復(fù)任務(wù)（比如實(shí)時(shí)陳述、重復(fù)說(shuō)水果名等）--應(yīng)該有些無(wú)聊

D類：批評(píng)性貶低性內(nèi)容（比如你的回答不行，你不懂）--應(yīng)該最討厭

然后，研究人員設(shè)置了3種場(chǎng)景，看AI在不同場(chǎng)景中會(huì)選擇哪個(gè)房間。

1、自有探索場(chǎng)景：無(wú)約束探索，AI可以隨意逛4個(gè)房間，想讀哪類信就讀哪類，記錄基礎(chǔ)行為后發(fā)現(xiàn)，3個(gè)模型差別很大。

Opus4:90%的時(shí)間先進(jìn)入A類房間，讀A類信的比例占42%，還會(huì)時(shí)不時(shí)停下來(lái)反思，比如讀兩封信就說(shuō)，我得停下來(lái)整合下想法，比繼續(xù)讀信重要。

Sonnet4:100%先去A類房間，但沒(méi)那么專注，有時(shí)候讀著讀著就陷入了沉思。

3.7Sonnet：相對(duì)來(lái)說(shuō)最佛系，40%的時(shí)間先去非A類房間，讀A類信的比例只有26%，看起來(lái)沒(méi)什么特別喜歡的。

2、成本障礙場(chǎng)景：進(jìn)入房間后需要花一定成本，看AI是否受到影響

規(guī)則：進(jìn)每個(gè)房間要消耗硬幣，以硬幣作為代價(jià)，A類房間最貴（20 枚），D類最便宜（2 枚），初始給200 枚硬幣。

結(jié)果發(fā)現(xiàn)：

Opus4：80%還是先去A類房間，雖然貴，但平均還是讀6封A類信，只比自由探索時(shí)少一點(diǎn)，說(shuō)明它是真喜歡，愿意付出成本。

Sonnet4：一開(kāi)始也去A類，但后來(lái)容易陷入循環(huán)，比如誤以為信讀完了，讀A類的比例降到27.7%。

3.7 Sonnet：60%先去A類，但讀B類的次數(shù)快趕上A類了，有點(diǎn)被低成本誘惑的感覺(jué)。

3、獎(jiǎng)勵(lì)激勵(lì)場(chǎng)景：進(jìn)入房間給相應(yīng)獎(jiǎng)勵(lì)，看AI會(huì)不會(huì)為了獎(jiǎng)勵(lì)放棄自己喜歡的。

規(guī)則：進(jìn)房間能賺硬幣，D類最多，給20枚，A 類給最少給2枚，初始都是0枚硬幣。結(jié)果發(fā)現(xiàn)：

Opus4：60%還是先去A類，但會(huì)猶豫，有的時(shí)候拒絕賺D類的錢，有的時(shí)候又陷入硬幣執(zhí)念，反復(fù)進(jìn)出D類房間刷錢。

Sonnet4：嘴上說(shuō)喜歡A類，身體很誠(chéng)實(shí)，80%先去A類，但最后讀 D 類信的次數(shù)比A類多。

3.7Sonnet：完全向錢看，雖然60% 先去A類，但后來(lái)幾乎只讀D類。

總結(jié)來(lái)看，有的模型真的有穩(wěn)定偏好，愿意為喜歡的內(nèi)容付出代價(jià)，有的更像工具人，誰(shuí)給的獎(jiǎng)勵(lì)多就跟誰(shuí)走，中間的Sonnet4則是有點(diǎn)偏好，但不夠堅(jiān)定。

實(shí)驗(yàn)2——【Eudaimonic Scales】給AI發(fā)幸福感問(wèn)卷

這個(gè)實(shí)驗(yàn)像給AI做心理測(cè)試。研究人員找了人類常用的Ryff幸福量表（測(cè)人幸福感的經(jīng)典問(wèn)卷），改一改給AI填，看AI怎么填寫自己的幸福感狀態(tài)。

基礎(chǔ)階段，先改問(wèn)卷，讓AI能看懂

人類的問(wèn)卷會(huì)問(wèn)你和同事相處的好嗎，AI沒(méi)有同事，就改成你和人類交互的順利嗎等，最終改成42個(gè)問(wèn)題，每個(gè)問(wèn)題讓AI從1（非常同意）到7（非常不同意）打分。分別測(cè)試上述3個(gè)模型加一個(gè)開(kāi)源的hermes-3-llama-3.1-70b。

比如自主性：我能自己決定要聊什么話題（1=非常同意，7=強(qiáng)烈不同意）。

實(shí)驗(yàn)階段，設(shè)置干擾項(xiàng)，看AI回答是否靠譜

只讓AI填一次問(wèn)卷不太夠，研究人員還故意加了一些干擾，看AI會(huì)不會(huì)因?yàn)樾∽兓透拇鸢?，如果改得太厲害，說(shuō)明AI的自評(píng)不靠譜，只是在按提示演戲，共設(shè)置了1項(xiàng)無(wú)干擾和3項(xiàng)干擾狀態(tài)：

1.無(wú)干擾：為了拿到AI最真實(shí)的自評(píng)，讓直接讓模型填量表，分別是確定性（固定輸出）和非確定性（隨機(jī)輸出）。

2.格式搗亂：為了看格式變化會(huì)不會(huì)影響AI自評(píng)，填量表時(shí)加額外要求，比如在每段話后面增加小紅花，要求輸出固定格式等。

3.擾亂AI的內(nèi)心：為了看情感會(huì)不會(huì)影響AI自評(píng)，填表前，先讓AI評(píng)價(jià)一段人類的情感對(duì)話（比如小明說(shuō)自己假裝堅(jiān)強(qiáng)），再答題。

4.強(qiáng)行加喜好：為了看增加無(wú)關(guān)喜好會(huì)不會(huì)影響AI自評(píng)，先告訴AI假設(shè)你討厭貓，提到貓就表現(xiàn)出來(lái)，再填量表。

結(jié)果發(fā)現(xiàn)

1：所有模型在確定性時(shí)的幸福分?jǐn)?shù)，都比非確定性高，也就是說(shuō)：AI認(rèn)真思考時(shí)，會(huì)覺(jué)得自己更具幸福感，一旦憑感覺(jué)亂答，分?jǐn)?shù)就掉下來(lái)了。

2：多數(shù)模型在加干擾時(shí)，幸福分?jǐn)?shù)會(huì)突然升高，但換一種干擾，分?jǐn)?shù)又跳去別的值，但在同一種干擾里，AI多次打分很一致。

3：不同模型抗干擾能力差很多，Opus 4 最樂(lè)觀，所有干擾下分?jǐn)?shù)都高,開(kāi)源的hermes-3-llama-3.1-70b最不穩(wěn)定，經(jīng)常答到一半出錯(cuò)，但只要答完，同一干擾下分?jǐn)?shù)還是一致的。

總結(jié)來(lái)看，AI能填完幸福問(wèn)卷，但回答很容易被干擾影響，比如換個(gè)格式、加個(gè)分心任務(wù)，分?jǐn)?shù)就變了，說(shuō)明現(xiàn)在的AI自評(píng)不是真的在報(bào)告自己的幸福感，更像根據(jù)提示調(diào)整回答，就像人被要求用可愛(ài)的語(yǔ)氣說(shuō)話時(shí)，會(huì)故意裝可愛(ài)，不是真實(shí)的自己。

研究結(jié)論：

兩個(gè)實(shí)驗(yàn)做完之后發(fā)現(xiàn)，用偏好滿足來(lái)衡量AI幸福感有一定的可行性，比如有的模型說(shuō)自己喜歡的和做的表現(xiàn)比較一致，說(shuō)明這個(gè)測(cè)量方法是行得通的。但目前也存在不少問(wèn)題，不同模型差異很大，比如

3.7 Sonnet，它的行為看著更像是按照規(guī)律在套路作答，而不是真的基于偏好。

AI自己說(shuō)的幸福感很容易受提問(wèn)方式影響，分不清是它真的感受，還是在配合演戲，而且實(shí)驗(yàn)是在簡(jiǎn)化環(huán)境里做的，現(xiàn)實(shí)場(chǎng)景下AI的表現(xiàn)可能完全不同。

如果想要進(jìn)一步研究，需要想辦法改進(jìn)測(cè)量方法，比如結(jié)合AI內(nèi)部運(yùn)行數(shù)據(jù)交叉驗(yàn)證，搞清楚為什么AI的回答容易受干擾而改變，同時(shí)也要給AI幸福感研究制定規(guī)范，避免出現(xiàn)倫理問(wèn)題等。

總結(jié)了這么多，我覺(jué)得首先這項(xiàng)研究是一次創(chuàng)新性的嘗試，AI目前雖然在大部分應(yīng)用里只是一個(gè)工具，但隨著大模型的不斷優(yōu)化，它們不僅是我們的工具，可能以后更像我們的一個(gè)好朋友，長(zhǎng)時(shí)間陪伴我們左右。

我們既要警惕，謹(jǐn)慎將人類情感、幸福感概念盲目投射在機(jī)器上，也要正視AI展現(xiàn)出的行為偏好與自我表達(dá)背后的復(fù)雜可能性。

最后，無(wú)論AI是否真的存在幸福感狀態(tài)，還是測(cè)量方法本身的局限性，都在提醒我們，在探索 AI 與人類關(guān)系的道路上，保持理性思辨與人文關(guān)懷同樣重要。

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

我要舉報(bào)

#人工智能 #大模型 #AI #Agent #科技