AI社會(huì)學(xué)︱算法的21種“公平”，你要哪一種？

沈虹

2020-07-16 17:58

2016年5月，美國著名的非盈利媒體ProPublica發(fā)表了一篇題為《機(jī)器偏見》(Machine Bias) 的調(diào)查性報(bào)道。如果之前在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域有關(guān)公平 (fairness) 和偏見 (bias) 的議題還只是小范圍的學(xué)界爭論，僅在FATML (Fairness, Accountability, and Transparency in Machine Learning) 等新興會(huì)議里被討論，這篇報(bào)道之后關(guān)鍵詞里涉及“公平”的機(jī)器學(xué)習(xí)論文開始呈指數(shù)級(jí)增長。有普林斯頓計(jì)算機(jī)系教授阿爾文德?納拉亞南（Arvind Narayanan）精心制作的美圖為證：

圖片來源：Narayanan, Arvind. "21 definitions of fairness and their politics. (Feb.23, 2018)." In Tutorial presented at the Conference on Fairness, Accountability, and Transparency, vol. 21.

在這篇影響力巨大的報(bào)道里，ProPublica分析了一個(gè)名為COMPAS的機(jī)器學(xué)習(xí)系統(tǒng)。在美國地方的司法體系里，COMPAS被廣泛應(yīng)用于預(yù)測被告的再犯幾率，作為建議量刑的基礎(chǔ)。基于一系列復(fù)雜的歷史數(shù)據(jù)，包括年齡、性別和已有的犯罪記錄，COMPAS預(yù)測案件行為人(或被告)被再次逮捕的概率，得出一個(gè)1到10分之間的 “危險(xiǎn)分” (risk score) 供法官參考：分?jǐn)?shù)越高，行為人被再次逮捕的概率越高，也就越危險(xiǎn)。

機(jī)器學(xué)習(xí)的擁躉們認(rèn)為，比起人類法官們固有的歧視和偏見，利用大數(shù)據(jù)得出的結(jié)論要客觀中立的多。畢竟，數(shù)據(jù)不會(huì)說謊，算法永遠(yuǎn)客觀，不是嗎？然而，ProPublica的報(bào)道提示了另外一種可能。報(bào)告利用公開數(shù)據(jù)，分析了佛羅里達(dá)州布勞沃德縣（Broward County）1.8萬人的COMPAS分?jǐn)?shù)和犯罪記錄，得出了一個(gè)驚人的發(fā)現(xiàn)：盡管COMPAS的正確預(yù)測率達(dá)到了61%，在它的系統(tǒng)里，黑人與白人的分?jǐn)?shù)分布卻明顯不同。黑人更有可能被誤判，即被預(yù)測為高風(fēng)險(xiǎn)卻沒有再犯，白人則更有可能被漏判，即被預(yù)測為低風(fēng)險(xiǎn)卻再次犯罪。不同種族間的誤判 (false positive) 和漏判 (false negative) 率的差距可以高達(dá)50%。

有趣的是，故事在這里并沒有結(jié)束。在ProPublica報(bào)道發(fā)布并引起巨大爭議之后，COMPAS的母公司做出了正面回應(yīng)。它重新在ProPublica的數(shù)據(jù)上運(yùn)行了自己的算法，并公布了自己算法在不同種族之間的分布。COMPAS爭論道，他們的系統(tǒng)是“公平”的，而公平依據(jù)是，在他們的算法里，無論黑人白人，預(yù)測為高風(fēng)險(xiǎn)的被告再次犯罪的概率都是相同的。也就是說，如果你采取的公平定義不是誤判和漏報(bào)率，而是高風(fēng)險(xiǎn)的預(yù)測正確率 (predictive parity) 的話，COMPAS的算法并無偏見和歧視之說。

接下來，機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)領(lǐng)域的大牛們就這個(gè)問題展開了精彩的辯論，各種關(guān)于公平的數(shù)學(xué)定義層出不窮，一度達(dá)到21種之多。統(tǒng)計(jì)學(xué)家們很快發(fā)現(xiàn)，COMPAS與ProPublica衡量公平的標(biāo)準(zhǔn)存在沖突。他們采用的公平定義都是抵達(dá)某一種“公平”的方式，但如果兩個(gè)群體之間本身用來訓(xùn)練模型的數(shù)據(jù)存在差異（在COMPAS的例子里，黑人的總體再犯率比白人要高），那么在統(tǒng)計(jì)上各種“公平”的定義就是不可兼容的。也就是說，算法不可能兼顧ProPublica提出的“公平” 和COMPAS提出的“公平”。即使數(shù)學(xué)上可能會(huì)有完美的“公平”定義，在現(xiàn)實(shí)世界的復(fù)雜社會(huì)關(guān)系里，完美且唯一正確的“公平”是不存在的。

納拉亞南在他2018年FATML的教程里戲謔道：現(xiàn)在“公平”這么熱門，如果你想在機(jī)器學(xué)習(xí)的各大會(huì)議上灌水，可以想想怎樣再多開發(fā)一些復(fù)雜的、統(tǒng)計(jì)學(xué)意義上的“公平”定義。這當(dāng)然是玩笑話。他想進(jìn)一步指出的是，光致力于發(fā)展統(tǒng)計(jì)學(xué)上嚴(yán)格的“公平”定義可能是徒勞的，不論在數(shù)學(xué)上有多么嚴(yán)謹(jǐn)。因?yàn)椴粌H人類世界不可能有完美的“公平”算法，每一種所謂的“公平”法則背后其實(shí)都是復(fù)雜的社會(huì)關(guān)系和政治訴求。

在COMPAS的例子里，案件行為人或被告最關(guān)心的可能是誤判 (false positive) ，而城市居民們最關(guān)心的可能是漏判 (false negative)，兩者是此消彼長的關(guān)系，不可能全部滿足。那么，誰的利益應(yīng)該放在前面？如果必須作出取舍的話，算法里這條取舍的線應(yīng)該畫在哪里？

1980年，社會(huì)學(xué)家蘭登?溫納（Langdon Winner）寫下了至今仍然是經(jīng)典名篇的《技術(shù)有政治嗎》（Do artifacts have politics）。其議題在算法統(tǒng)治世界的今天仍然重要，也許比任何時(shí)候都更加重要。

當(dāng)時(shí)溫納在科技重鎮(zhèn)麻省理工力排眾議，探討科技產(chǎn)物和社會(huì)關(guān)系的復(fù)雜互動(dòng)。他認(rèn)為，科技產(chǎn)物是有政治性的，而過去政治哲學(xué)的討論里大大低估了科技的重要性。但這里的“政治性”并非單向度的“科技影響社會(huì)”或是“社會(huì)影響科技”；科技在與社會(huì)的復(fù)雜互動(dòng)里生成，進(jìn)化，并深刻地嵌入和塑造當(dāng)時(shí)當(dāng)?shù)氐臍v史社會(huì)和權(quán)力關(guān)系之中。

溫納舉了1940年代由加州大學(xué)研究員在當(dāng)?shù)亻_發(fā)并推廣的番茄收割機(jī)作為其中的一個(gè)例子。相比手動(dòng)收割，機(jī)器收割可以大大提高效率?？墒牵m然以效率和現(xiàn)代之名推廣，這一新興技術(shù)卻并沒有使當(dāng)?shù)鼐用衿降鹊叵碛兴慕?jīng)濟(jì)收益。缺少有效的社會(huì)反思和合適的政策約束，昂貴的機(jī)器雖然提高了生產(chǎn)力和生產(chǎn)效率，卻促進(jìn)了番茄種植業(yè)的工業(yè)化和集中化，大大減少了當(dāng)?shù)匦∞r(nóng)種植者和手工收割者的工作崗位，致使無數(shù)勞動(dòng)者流離失所?？瓷先ノ⒉蛔愕赖男⌒C(jī)器最終以一種令人驚訝的方式徹底重構(gòu)了當(dāng)?shù)氐纳鐣?huì)和經(jīng)濟(jì)關(guān)系。

溫納總結(jié)到，“the thing we called ‘technologies’ are ways of building order in our world.” 我們所說的“科技”其實(shí)是在這個(gè)世界上（重新）建立秩序和規(guī)則的方式，算法同理：誰受益？誰受損？誰得到更大的權(quán)力？誰受到更多的傷害？誰被包含進(jìn)來？誰又被排除在外？

每年講完COMPAS的案例，都會(huì)有學(xué)生質(zhì)疑：你講了那么多，具體來說我們到底該怎么做（what are the actionable items here）？21種不同的公平定義，我們調(diào)試模型的時(shí)候應(yīng)該使用哪一種？彼時(shí)我在計(jì)算機(jī)學(xué)院浸淫稍久，深知 “actionable items”乃是社會(huì)學(xué)家和計(jì)算機(jī)學(xué)家的根本分歧，紅海兩分，從此無法對(duì)話。社會(huì)學(xué)家的根本目的常常并不是解決問題，并對(duì)一切聲稱能將復(fù)雜人類問題簡單化和算法化的路徑持有質(zhì)疑，而工程師的程序里少了一個(gè)括號(hào)都無法運(yùn)行。每當(dāng)這個(gè)時(shí)候，我都會(huì)面露詭異微笑，祭出計(jì)算機(jī)大牛辛西婭?德沃克（Cynthia Dwork）在這場“公平大辯論”里的名言:

“Fairness” metric is assumed to be public and open to discussion and continual refinement.

當(dāng)“公平”本身是社會(huì)的和政治的，算法不可能也不會(huì)是社會(huì)關(guān)系的絕緣體。我們能做的第一個(gè)“actionable item，”就是把黑箱打開，然后開始問，我們想要的，到底是什么樣的算法“公平”？

【參考文獻(xiàn)】

[1] Angwin, Julia, Jeff Larson, Surya Mattu, and Lauren Kirchner. "Machine bias." ProPublica, May 23 (2016): 2016.

[2] Narayanan, Arvind. "21 definitions of fairness and their politics. (Feb.23, 2018)." In Tutorial presented at the Conference on Fairness, Accountability, and Transparency, vol. 21.

[3] Dieterich, William, Christina Mendoza, and Tim Brennan. "COMPAS risk scales: Demonstrating accuracy equity and predictive parity." Northpointe Inc (2016).

[4] Feller, Avi, Emma Pierson, Sam Corbett-Davies, and Sharad Goel. "A computer program used for bail and sentencing decisions was labeled biased against blacks. It’s actually not that clear." The Washington Post (2016).

[5] Winner, Langdon. "Do artifacts have politics?" Daedalus (1980): 121-136.

[6] Dwork, Cynthia, Moritz Hardt, Toniann Pitassi, Omer Reingold, and Richard Zemel. "Fairness through awareness." In Proceedings of the 3rd innovations in theoretical computer science conference, pp. 214-226. 2012.

-----

作者沈虹，畢業(yè)于美國伊利諾伊大學(xué)香檳分校傳播學(xué)系，現(xiàn)任職于美國卡內(nèi)基梅隆大學(xué)。她用社會(huì)學(xué)的方法研究新興科技。

責(zé)任編輯：單雪菱

校對(duì)：張亮亮

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)