- +1
AI社會(huì)學(xué)︱算法的21種“公平”,你要哪一種?
2016年5月,美國著名的非盈利媒體ProPublica發(fā)表了一篇題為《機(jī)器偏見》(Machine Bias) 的調(diào)查性報(bào)道。如果之前在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域有關(guān)公平 (fairness) 和偏見 (bias) 的議題還只是小范圍的學(xué)界爭論,僅在FATML (Fairness, Accountability, and Transparency in Machine Learning) 等新興會(huì)議里被討論,這篇報(bào)道之后關(guān)鍵詞里涉及“公平”的機(jī)器學(xué)習(xí)論文開始呈指數(shù)級(jí)增長。有普林斯頓計(jì)算機(jī)系教授阿爾文德?納拉亞南(Arvind Narayanan)精心制作的美圖為證:

在這篇影響力巨大的報(bào)道里,ProPublica分析了一個(gè)名為COMPAS的機(jī)器學(xué)習(xí)系統(tǒng)。在美國地方的司法體系里,COMPAS被廣泛應(yīng)用于預(yù)測被告的再犯幾率,作為建議量刑的基礎(chǔ)。基于一系列復(fù)雜的歷史數(shù)據(jù),包括年齡、性別和已有的犯罪記錄,COMPAS預(yù)測案件行為人(或被告)被再次逮捕的概率,得出一個(gè)1到10分之間的 “危險(xiǎn)分” (risk score) 供法官參考:分?jǐn)?shù)越高,行為人被再次逮捕的概率越高,也就越危險(xiǎn)。
機(jī)器學(xué)習(xí)的擁躉們認(rèn)為,比起人類法官們固有的歧視和偏見,利用大數(shù)據(jù)得出的結(jié)論要客觀中立的多。畢竟,數(shù)據(jù)不會(huì)說謊,算法永遠(yuǎn)客觀,不是嗎?然而,ProPublica的報(bào)道提示了另外一種可能。報(bào)告利用公開數(shù)據(jù),分析了佛羅里達(dá)州布勞沃德縣(Broward County)1.8萬人的COMPAS分?jǐn)?shù)和犯罪記錄,得出了一個(gè)驚人的發(fā)現(xiàn):盡管COMPAS的正確預(yù)測率達(dá)到了61%,在它的系統(tǒng)里,黑人與白人的分?jǐn)?shù)分布卻明顯不同。黑人更有可能被誤判,即被預(yù)測為高風(fēng)險(xiǎn)卻沒有再犯,白人則更有可能被漏判,即被預(yù)測為低風(fēng)險(xiǎn)卻再次犯罪。不同種族間的誤判 (false positive) 和漏判 (false negative) 率的差距可以高達(dá)50%。
有趣的是,故事在這里并沒有結(jié)束。在ProPublica報(bào)道發(fā)布并引起巨大爭議之后,COMPAS的母公司做出了正面回應(yīng)。它重新在ProPublica的數(shù)據(jù)上運(yùn)行了自己的算法,并公布了自己算法在不同種族之間的分布。COMPAS爭論道,他們的系統(tǒng)是“公平”的,而公平依據(jù)是,在他們的算法里,無論黑人白人,預(yù)測為高風(fēng)險(xiǎn)的被告再次犯罪的概率都是相同的。也就是說,如果你采取的公平定義不是誤判和漏報(bào)率,而是高風(fēng)險(xiǎn)的預(yù)測正確率 (predictive parity) 的話,COMPAS的算法并無偏見和歧視之說。
接下來,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)領(lǐng)域的大牛們就這個(gè)問題展開了精彩的辯論,各種關(guān)于公平的數(shù)學(xué)定義層出不窮,一度達(dá)到21種之多。統(tǒng)計(jì)學(xué)家們很快發(fā)現(xiàn),COMPAS與ProPublica衡量公平的標(biāo)準(zhǔn)存在沖突。他們采用的公平定義都是抵達(dá)某一種“公平”的方式,但如果兩個(gè)群體之間本身用來訓(xùn)練模型的數(shù)據(jù)存在差異(在COMPAS的例子里,黑人的總體再犯率比白人要高),那么在統(tǒng)計(jì)上各種“公平”的定義就是不可兼容的。也就是說,算法不可能兼顧ProPublica提出的“公平” 和COMPAS提出的“公平”。即使數(shù)學(xué)上可能會(huì)有完美的“公平”定義,在現(xiàn)實(shí)世界的復(fù)雜社會(huì)關(guān)系里,完美且唯一正確的“公平”是不存在的。
納拉亞南在他2018年FATML的教程里戲謔道:現(xiàn)在“公平”這么熱門,如果你想在機(jī)器學(xué)習(xí)的各大會(huì)議上灌水,可以想想怎樣再多開發(fā)一些復(fù)雜的、統(tǒng)計(jì)學(xué)意義上的“公平”定義。這當(dāng)然是玩笑話。他想進(jìn)一步指出的是,光致力于發(fā)展統(tǒng)計(jì)學(xué)上嚴(yán)格的“公平”定義可能是徒勞的,不論在數(shù)學(xué)上有多么嚴(yán)謹(jǐn)。因?yàn)椴粌H人類世界不可能有完美的“公平”算法,每一種所謂的“公平”法則背后其實(shí)都是復(fù)雜的社會(huì)關(guān)系和政治訴求。
在COMPAS的例子里,案件行為人或被告最關(guān)心的可能是誤判 (false positive) ,而城市居民們最關(guān)心的可能是漏判 (false negative),兩者是此消彼長的關(guān)系,不可能全部滿足。那么,誰的利益應(yīng)該放在前面?如果必須作出取舍的話,算法里這條取舍的線應(yīng)該畫在哪里?
1980年,社會(huì)學(xué)家蘭登?溫納(Langdon Winner)寫下了至今仍然是經(jīng)典名篇的《技術(shù)有政治嗎》(Do artifacts have politics)。其議題在算法統(tǒng)治世界的今天仍然重要,也許比任何時(shí)候都更加重要。
當(dāng)時(shí)溫納在科技重鎮(zhèn)麻省理工力排眾議,探討科技產(chǎn)物和社會(huì)關(guān)系的復(fù)雜互動(dòng)。他認(rèn)為,科技產(chǎn)物是有政治性的,而過去政治哲學(xué)的討論里大大低估了科技的重要性。但這里的“政治性”并非單向度的“科技影響社會(huì)”或是“社會(huì)影響科技”;科技在與社會(huì)的復(fù)雜互動(dòng)里生成,進(jìn)化,并深刻地嵌入和塑造當(dāng)時(shí)當(dāng)?shù)氐臍v史社會(huì)和權(quán)力關(guān)系之中。
溫納舉了1940年代由加州大學(xué)研究員在當(dāng)?shù)亻_發(fā)并推廣的番茄收割機(jī)作為其中的一個(gè)例子。相比手動(dòng)收割,機(jī)器收割可以大大提高效率??墒牵m然以效率和現(xiàn)代之名推廣,這一新興技術(shù)卻并沒有使當(dāng)?shù)鼐用衿降鹊叵碛兴慕?jīng)濟(jì)收益。缺少有效的社會(huì)反思和合適的政策約束,昂貴的機(jī)器雖然提高了生產(chǎn)力和生產(chǎn)效率,卻促進(jìn)了番茄種植業(yè)的工業(yè)化和集中化,大大減少了當(dāng)?shù)匦∞r(nóng)種植者和手工收割者的工作崗位,致使無數(shù)勞動(dòng)者流離失所??瓷先ノ⒉蛔愕赖男⌒C(jī)器最終以一種令人驚訝的方式徹底重構(gòu)了當(dāng)?shù)氐纳鐣?huì)和經(jīng)濟(jì)關(guān)系。
溫納總結(jié)到,“the thing we called ‘technologies’ are ways of building order in our world.” 我們所說的“科技”其實(shí)是在這個(gè)世界上(重新)建立秩序和規(guī)則的方式,算法同理:誰受益?誰受損?誰得到更大的權(quán)力?誰受到更多的傷害?誰被包含進(jìn)來?誰又被排除在外?
每年講完COMPAS的案例,都會(huì)有學(xué)生質(zhì)疑:你講了那么多,具體來說我們到底該怎么做(what are the actionable items here)?21種不同的公平定義,我們調(diào)試模型的時(shí)候應(yīng)該使用哪一種?彼時(shí)我在計(jì)算機(jī)學(xué)院浸淫稍久,深知 “actionable items”乃是社會(huì)學(xué)家和計(jì)算機(jī)學(xué)家的根本分歧,紅海兩分,從此無法對(duì)話。社會(huì)學(xué)家的根本目的常常并不是解決問題,并對(duì)一切聲稱能將復(fù)雜人類問題簡單化和算法化的路徑持有質(zhì)疑,而工程師的程序里少了一個(gè)括號(hào)都無法運(yùn)行。每當(dāng)這個(gè)時(shí)候,我都會(huì)面露詭異微笑,祭出計(jì)算機(jī)大牛辛西婭?德沃克(Cynthia Dwork)在這場“公平大辯論”里的名言:
“Fairness” metric is assumed to be public and open to discussion and continual refinement.
當(dāng)“公平”本身是社會(huì)的和政治的,算法不可能也不會(huì)是社會(huì)關(guān)系的絕緣體。我們能做的第一個(gè)“actionable item,”就是把黑箱打開,然后開始問,我們想要的,到底是什么樣的算法“公平”?
【參考文獻(xiàn)】
[1] Angwin, Julia, Jeff Larson, Surya Mattu, and Lauren Kirchner. "Machine bias." ProPublica, May 23 (2016): 2016.
[2] Narayanan, Arvind. "21 definitions of fairness and their politics. (Feb.23, 2018)." In Tutorial presented at the Conference on Fairness, Accountability, and Transparency, vol. 21.
[3] Dieterich, William, Christina Mendoza, and Tim Brennan. "COMPAS risk scales: Demonstrating accuracy equity and predictive parity." Northpointe Inc (2016).
[4] Feller, Avi, Emma Pierson, Sam Corbett-Davies, and Sharad Goel. "A computer program used for bail and sentencing decisions was labeled biased against blacks. It’s actually not that clear." The Washington Post (2016).
[5] Winner, Langdon. "Do artifacts have politics?" Daedalus (1980): 121-136.
[6] Dwork, Cynthia, Moritz Hardt, Toniann Pitassi, Omer Reingold, and Richard Zemel. "Fairness through awareness." In Proceedings of the 3rd innovations in theoretical computer science conference, pp. 214-226. 2012.
-----
作者沈虹,畢業(yè)于美國伊利諾伊大學(xué)香檳分校傳播學(xué)系,現(xiàn)任職于美國卡內(nèi)基梅隆大學(xué)。她用社會(huì)學(xué)的方法研究新興科技。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




