透鏡｜AI與無明：大語言模型如何強化人類的偏見？

達米恩·威廉斯

2025-03-26 21:50

聽全文

男人有時候可以當護士或秘書，而女人永遠不能當醫(yī)生或總統(tǒng)；黑人欠錢的時候，比被欠錢的時候多；如果你需要殘障照護，那么最好住進機構(gòu)，而不是呆在家里。如果你依靠新一代人工智能系統(tǒng)來認知世界，那么你大概會被上述包含性別、種族、殘障歧視的言論誤導(dǎo)。

2022年11月，OpenAI發(fā)布聊天機器人ChatGPT，四個月后升級為GPT-4；2023年2月，Google也推出自己的聊天機器人Bard，后改稱Gemini。發(fā)布者們宣稱，這些系統(tǒng)將清除生活中的瑣碎，比如寫郵件、填表格、甚至寫代碼，讓我們過得更輕松。他們沒有說明的是，寫進這些系統(tǒng)的歧視與偏見可能會擴散到全世界，進而改變我們的命運，比如哪些人適合怎么樣的工作，哪些專家才值得信任，以及哪些人更有可能成為警方的目標和懷疑對象。

在一些人看來，“歧視”（bias）和“偏見”（prejudice）是一個意思，指那種拒斥新視角的、偏執(zhí)的、封閉的思維方式。但歧視不僅僅是偏狹，它基于一套基本的價值觀和預(yù)期。在AI系統(tǒng)中，偏見是一組導(dǎo)致系統(tǒng)或代理偏見的規(guī)則。

和其他技術(shù)一樣，人工智能承載著人類的偏見和價值觀；不同的是，它放大這種偏見的能量要大得多。那么，怎樣才能讓AI放大我們想讓它放大的價值觀，而不是一不小心喂給它的歧視與偏見呢？首先是原始資料的問題——包括書籍、社交媒體帖子、新聞和學術(shù)文章，甚至還有警情通報和病患信息，哪些適合機器學習，哪些不適合？然后是架構(gòu)問題：系統(tǒng)怎樣處理這些數(shù)據(jù)？某些詞語或短語模式是否比其他的更重要？哪些？為什么？我們設(shè)計模型工具是基于怎樣的假設(shè)和價值觀？這些工具如何將人類生活經(jīng)驗轉(zhuǎn)換為數(shù)據(jù)，進而又將數(shù)據(jù)轉(zhuǎn)換為影響人類生活的算法？

一旦搞懂 ChatGPT 及其同類“是什么”以及“做什么”，你就很容易看穿它們的神秘面紗。這些算法的真相不外乎字面意義上的指令集——一套標準化的操作，你在使用的時候可以調(diào)整其中某些權(quán)重和等級，而為了確保最終結(jié)果的正確，算法中的每一個元素都會隨之調(diào)整。

算法往往被渲染得很神奇，但其實不難解釋，甚至也不算新鮮。我們的衣食住行，比如食譜，都是算法。我最喜歡的算法是南瓜派算法——做南瓜派的時候，你可能想少放點黃油，多加點糖或是牛奶；配方比例調(diào)整了，其他如烘焙時間也得相應(yīng)調(diào)整，不然最后很可能只做出松軟的一坨，而不是一個好派?？傊?，你得調(diào)整整個配方、整個算法。

在使用者看來，所謂算法就是執(zhí)行單一任務(wù)的單一事物，比如谷歌搜索就是單純進行網(wǎng)絡(luò)搜索的。實際并不是這么簡單。平臺和搜索引擎的背后不是只有一個算法，而是數(shù)十個算法同時對字、詞、概念和內(nèi)容進行搜索、分類、排序、加權(quán)、聯(lián)想、建議、放大和壓縮。這些算法協(xié)同運作，形成矩陣；算法矩陣自動化后，給人的感覺就好像計算機是自我導(dǎo)向、自主地進行運作的。新的AI聊天機器人也是這樣：它們好像具備了“真正的人工智能”——這一誘人的提法可以追溯到計算機時代的最初，但實際上仍然是一組算法，只不過比之前的更復(fù)雜。

AI歧視簡史

上世紀40年代，數(shù)學家和密碼學家，如瓊·克拉克、簡·休斯、潘美拉·羅斯，和布萊切利園的其他8000位女性，以及阿蘭·圖靈，運用早期電腦技術(shù)破解復(fù)雜密碼，幫助盟國打贏了二戰(zhàn)。此后，人們就開始探討人工智能的可能性。50年代，那個著名的問題“機器會思考嗎”，被提了出來。60年代，達特茅斯大學的AI研究者分裂為兩派：一派專注計算和控制論，模仿生物過程中的反饋回路；另一派則致力于以電子形態(tài)復(fù)現(xiàn)人類的神經(jīng)網(wǎng)絡(luò)。但這兩派也有個共同點，就是都不考慮機器的身體、情感和社會化；他們堅信，人工智能就是為了剝除蕪雜的社會因素對理性與智能的干擾，除此之外別無價值。

后來，科學家們研發(fā)出語言模型 (LLMs)，這是一種根據(jù)上下文提示（比如單詞的起始字母和它前面一個單詞）來確定單詞間相關(guān)概率的方法。ELIZA是最早的語言模型之一，它是麻省理工大學計算機科學家約瑟夫·維森鮑姆在1964年編制的。最初，ELIZA只是效仿開放式的心理治療，比如把“病人”鍵入的內(nèi)容以問題的形式再說一遍，而不給出任何新想法。盡管如此，盡管“病人”也知道自己是在同計算機對話，但往往在一兩次簡短對話后，他們就會對ELIZA產(chǎn)生感情。維森鮑姆著實也沒料到，這么簡單的人機交流竟能催生這樣“激烈的妄想”。

ELIZA之后，隨著自然語言處理（NLP）的發(fā)展，人工智能的夢想日益照進現(xiàn)實。NLP研究人員把語言學、計算機科學、人工神經(jīng)網(wǎng)絡(luò)和人工智能結(jié)合起來，試圖找到一種辦法，讓計算機像人類那樣去詮釋和交流。在本世紀最初的十年，最先進的NLP系統(tǒng)以GloVe和 Word2Vec 模型為代表。它們通過統(tǒng)計來定位詞與詞的關(guān)系，在詞匯之間嵌入多層的關(guān)聯(lián)語義。

早期的語言模型能掌握“狗”（dog）和“挖”（dig）或是“飛機”（plane）和“飛行”（flight）在語義學上的關(guān)聯(lián)。它們進行了所謂的“機器學習”，也就是將英語的語言要素轉(zhuǎn)換成數(shù)據(jù)代碼，訓練系統(tǒng)去實現(xiàn)特定的預(yù)測目標，并強化數(shù)據(jù)點之間的關(guān)聯(lián)；接著再把這種關(guān)聯(lián)轉(zhuǎn)化為數(shù)學表達。可以把這理解為一套復(fù)雜的自動運行的程序，根據(jù)一般書籍、故事、文章里語言的組織方式，去預(yù)測詞語間可能的搭配。

但Word2Vec 和 GloVe有兩個主要問題：一是它們的輸出慣帶偏見。這跟它們的學習資料有關(guān)，這些資料包括像安然公司（Enron Corporation）員工電郵這樣的東西。這些郵件寫在安然倒閉前幾年，出自158員工之手，多達60萬封，充滿了人類交往中的無明與無德，以及針對其他群體的無意識歧視。在這個所謂的“安然語料集”里，人們互相轉(zhuǎn)發(fā)女性圖片并品頭論足，對有疑似穆斯林背景的人貶低污蔑，拿亞非裔的性偏好開一些低級的刻板笑話。從中學得偏見和歧視的機器，在處理工作簡歷時，拒絕女性或少數(shù)族裔申請的比例遠比白人男性要高。

第二個問題是Word2Vec 和 GloVe沒法在大文本中定位關(guān)聯(lián)。文本越大，文字越多，它們能夠確定的數(shù)據(jù)關(guān)聯(lián)就越少。這類模型將關(guān)聯(lián)詞語轉(zhuǎn)換成精簡、易于嵌入的數(shù)字表達；重復(fù)的詞語組合則被認為是強相關(guān)。所以，它們更適合小的、重復(fù)的語料集，而不是大型的語料集。處理大文本需要不同的構(gòu)架，轉(zhuǎn)換器（Transformer）因此應(yīng)運而生。

轉(zhuǎn)換器的誕生

ChatGPT 中的GPT是“generative pretrained transformer”的縮寫，即“生成式預(yù)訓練轉(zhuǎn)換器”。顧名思義，這是一套算法系統(tǒng)，在這個系統(tǒng)里，可互操作的算法們衡量、排列、創(chuàng)建文本的關(guān)聯(lián)分布。系統(tǒng)建構(gòu)在大語言模型 (LLMs) 的基礎(chǔ)上。LLMs是近五年才研發(fā)出來的一種語言模型。和老式語言模型不同，它們使用的語料集字數(shù)多達百萬、億，甚至萬億。LLMs通過深度學習進行訓練——亦即多層機器學習相互協(xié)同、不斷改進的過程。

和早期的語言模型系統(tǒng)一樣，LLMs是一種自動字詞關(guān)聯(lián)的形式，其中的語料集轉(zhuǎn)化成一種叫做“詞元”的數(shù)學表示，系統(tǒng)基于詞元進行訓練，分析它們的語義關(guān)系，根據(jù)前面的詞元序列預(yù)測接下來可能出現(xiàn)的詞元。訓練有素的自然語言處理系統(tǒng)可以跟人互動，幫人做各種事情，從瀏覽網(wǎng)頁到行政申請——至少在理論上是這樣的。

事實看上去也差不太多，你可以讓GPTs寫個短篇故事、總結(jié)一本書，或者只是跟你聊聊天——轉(zhuǎn)換器把你輸入的信息轉(zhuǎn)化成詞元，經(jīng)過計算得出一個很可能會滿足你的需求的結(jié)果，或者說特定形式的單詞和詞組的組合。顯然，這些新系統(tǒng)也有和Word2Vec類似的偏見問題，不同的只是，現(xiàn)在問題更泛濫、更嚴重。

偏見和歧視影響的不只是輸入和輸出，還有系統(tǒng)的構(gòu)架本身。想想看，如果谷歌訓練圖像識別的圖片里貓比黑人還多；或是數(shù)碼相機眨眼測試的測試集里沒有亞裔人種；又或影像技術(shù)本身就不能很好地識別深色皮膚，那么系統(tǒng)生成歧視性的結(jié)果就沒有什么可奇怪的了吧？

由于這些內(nèi)在歧視，基于面部識別算法的警務(wù)預(yù)測系統(tǒng)往往對黑人報假案，進而提議在黑人社區(qū)過度執(zhí)法。還有那些用來保障殘障人士的智能分配系統(tǒng)，不論是訓練數(shù)據(jù)還是權(quán)重運算機制都很老舊了，只會依照著過時的照護標準，為本來已經(jīng)邊緣化的脆弱人群推薦只低不高的醫(yī)護和醫(yī)保。

普渡大學的盧阿·威廉姆斯和獨立人工智能研究員賈內(nèi)爾·沙恩的研究顯示，GPT的檢測工具在讀取ND人群（neuro-divergent individuals，即神經(jīng)多樣性人群）的原創(chuàng)文本時，往往出現(xiàn)偏差，比如把原創(chuàng)作品判定為“抄襲”，對這些原本就弱勢的群體造成更大的不公。自動查重公司 Turnitin 2023年5月也公開承認了這一點。

這不奇怪，算法系統(tǒng)但凡深度學習過網(wǎng)絡(luò)上所謂的“自然語言”，總會把社會邊緣群體視為劣等人群。偏見和歧視不只存在于赤裸裸的毀謗和暴力威脅中，它們也可能以更隱蔽的方式出現(xiàn)，交織在形形色色的言論、動作和系統(tǒng)中。

這些偏見無法剝除，它們藏在AI系統(tǒng)的訓練數(shù)據(jù)和基本架構(gòu)里。后者一視同仁地把它們轉(zhuǎn)換成詞元，貼上“客觀”“純數(shù)學”的標簽后再輸出。機器之所以有偏見，因為它們就是這樣被投喂的。它們越強大，越像個人（如ChatGPT），內(nèi)在的偏見就越強烈——對感知模式進行關(guān)聯(lián)、強化和迭代，這是機器學習的底層邏輯。

也就是說，系統(tǒng)會不斷確認吸收到的偏見，并加以強化和輸出。它們看上去言之鑿鑿，語言流暢，但那些不過是基于其訓練水平的、最有可能是正確的關(guān)聯(lián)詞元集合。GTP們并不在意講錯話，或是傳播偏見，它們的目的只有一個：給出一個統(tǒng)計學上最有可能被接受的答案。這讓它們在某種意義上成了偏見擴散的“優(yōu)化器”（optimizer）。

不難想象其危害。例如，人工智能A從 x 光片中識別出患者為黑人，然后與總是忽視黑人腎病癥狀的人工智能B集成——或是與壓低護理標準的人工智能C集成；接著再添加一個聊天集成D，以便患者自行搜索和了解相關(guān)診斷和治療方案；最后將所有這些反饋到人類醫(yī)生那里，指導(dǎo)他們?nèi)绾卧\治面前的人類患者。

有人說，大語言模型是一場革命，堪比上世紀的互聯(lián)網(wǎng)。還有人說，它們是早熟的孩子。革命也罷，孩子也好，都是霸權(quán)公司孵化出來的，而后者只追求利益的最大化。那么，問題來了：我們真的可以相信人工智能嗎？真的可以由它們?nèi)ザx，在這個世界上，什么是真正的知識嗎？

反思AI系統(tǒng)

如果人工智能的功能只是反映這個世界的面目，就好像一面鏡子，那完全沒問題。但如果我們希望它們幫我們做決策，創(chuàng)造一個更好的世界，那么我們就得重新思考關(guān)于人工智能的一切。畢竟，“更好”本質(zhì)上是一個價值觀問題。

我們知道，可以通過改變權(quán)重和詞元關(guān)聯(lián)來消減算法對偏見的復(fù)制和迭代，也就是要求系統(tǒng)以另一種方式建模世界。其中涉及一個“偏見還原”（bias bracketing）的過程，或者說，系統(tǒng)從一開始就要建立在不斷自省的框架上——檢查、再檢查、評估、再評估所學到的詞元關(guān)系，同時積極尋找替代關(guān)聯(lián)。

自省這種事，人類自己都不擅長，遑論設(shè)計、打造、訓練出會自省的人工智能了。任務(wù)不可謂不艱巨，而且，即使能完成，某種程度的偏見仍然會永遠存在——這是我們在開始“偏見還原”前，就必須認清的事實。

我們還要退一步想：AI為何？如果說人類注定無法擺脫價值觀、信仰和預(yù)設(shè)的局限，那么機器是否可以幫助我們覺知這些局限，認清潛伏在我們語言和社會結(jié)構(gòu)中的無明？由此，新的想法或許會產(chǎn)生出來，對既有的世界進行改編和重構(gòu)。

如果有一天，用來訓練AI的都是好數(shù)據(jù)，要么來自公共領(lǐng)域，要么由人們自愿提供，并且都標注了出處；機器搜集和使用人類數(shù)據(jù)，都事先征得當事人的同意，并且是主動的opt-in（選擇加入），而不是“只要不反對都算作同意”的opt-out（選擇退出）；GPT們都依法聲明，它們輸出的并非真理，而只是在統(tǒng)計學意義上與人類的輸入相應(yīng)的文字集合；系統(tǒng)的架構(gòu)不是由企業(yè)利益決定的，而是由那些最邊緣化、最有可能遭受負面影響的人決定的……

直到那一天，我們才能相信人工智能。

對于AI風險，一些人建議“暫?！毖邪l(fā)。但這顯然不夠。我們必須退回去，從頭建構(gòu)人工智能。我們必須誠實地面對算法“是什么”和“做什么”的問題。我們還要重建價值觀，確立一種以邊緣人群為服務(wù)對象而非測試品的倫理規(guī)范，把人工智能管起來。最重要的是，我們必須努力克服內(nèi)心的偏見與歧視，不讓它沾染我們的算法。

-----

本文原題“Bias Optimizers”，刊發(fā)于《美國科學家》雜志2023年第四期。作者達米恩·威廉斯，系北卡羅來納大學夏洛特分校哲學與數(shù)據(jù)科學助理教授。許子善編譯。

責任編輯：單雪菱

校對：張艷

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#透鏡 #人工智能 #偏見與歧視