欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

  • +1

人工智能價(jià)值對(duì)齊的哲學(xué)反思|有限主義視域下的人工智能價(jià)值對(duì)齊

劉永謀(中國(guó)人民大學(xué)哲學(xué)院教授);白英慧(中國(guó)人民大學(xué)哲學(xué)院博士研究生)
2024-11-10 13:23
來源:澎湃新聞
? 思想市場(chǎng) >
字號(hào)

現(xiàn)有人工智能(artificial intelligence,簡(jiǎn)稱AI)價(jià)值對(duì)齊方案試圖借助自然科學(xué)的經(jīng)驗(yàn)證據(jù)與實(shí)證方法厘清人類道德的自然主義基礎(chǔ),并通過技術(shù)手段將其應(yīng)用到AI對(duì)人類價(jià)值觀的學(xué)習(xí)之中,忽視了道德的自然主義解釋的根本性缺陷,引發(fā)了AI價(jià)值對(duì)齊難題。有限主義認(rèn)為,現(xiàn)有AI價(jià)值對(duì)齊方案主張使AI具備類人道德,在本質(zhì)上遵循AI發(fā)展的自由主義進(jìn)路。這過于樂觀化、理想化。在現(xiàn)實(shí)中,時(shí)空有限性、類人有限性與算法有限性等難題導(dǎo)致AI價(jià)值對(duì)齊的功能有限性。同時(shí),AI價(jià)值對(duì)齊的功能有限性又伴隨著各類技術(shù)風(fēng)險(xiǎn)與社會(huì)風(fēng)險(xiǎn),即AI失控風(fēng)險(xiǎn)、人類機(jī)器化風(fēng)險(xiǎn)、無人擔(dān)責(zé)風(fēng)險(xiǎn)與AI濫用風(fēng)險(xiǎn)。對(duì)此,應(yīng)堅(jiān)持有限主義的AI價(jià)值對(duì)齊方案,反對(duì)通用AI價(jià)值對(duì)齊的路線,堅(jiān)持AI價(jià)值對(duì)齊的去道德化,制度化防止AI道德責(zé)任對(duì)齊,以及控制AI價(jià)值對(duì)齊的應(yīng)用范圍。

劉永謀,中國(guó)人民大學(xué)哲學(xué)院教授、博士研究生導(dǎo)師

隨著AI的普遍化與強(qiáng)大化,人類正處于“魔法師學(xué)徒”的境地,對(duì)齊問題(the alignment problem)成為最緊迫的問題之一,即“如何確保這些模型捕捉到我們的規(guī)范和價(jià)值觀,理解我們的意思或意圖,最重要的是,以我們想要的方式行事”。當(dāng)AI倫理風(fēng)險(xiǎn)不斷涌現(xiàn),價(jià)值對(duì)齊問題已然成為各大AI企業(yè)競(jìng)相研究、踐行的核心策略。2023年7月,OpenAI宣布成立“超級(jí)對(duì)齊”(superalignment)團(tuán)隊(duì),計(jì)劃花費(fèi)4年時(shí)間、投入20%算力,全力解決超級(jí)智能的價(jià)值對(duì)齊問題。此外,谷歌、微軟、OpenAI和Anthropic共同創(chuàng)建了前沿模型論壇,旨在通過與政策制定者、學(xué)術(shù)界的合作,推動(dòng)AI模型安全、負(fù)責(zé)任的開發(fā)。不可否認(rèn),AI價(jià)值對(duì)齊能夠大幅糾正偏見、促進(jìn)公平,已被視為解決AI發(fā)展負(fù)面后果的關(guān)鍵舉措。

但是,AI價(jià)值對(duì)齊亦存在問題。從根本上來看,現(xiàn)有的各類AI價(jià)值對(duì)齊方案遵循AI發(fā)展的自由主義進(jìn)路,堅(jiān)持類人AI理念,強(qiáng)調(diào)技術(shù)至上,主張資本的無序擴(kuò)展與有效加速主義(effective accelerationism, e/acc)。具體來說,AI價(jià)值對(duì)齊追求類人道德,對(duì)技術(shù)發(fā)展極度樂觀,試圖借助科學(xué)知識(shí)與技術(shù)手段,使AI習(xí)得人類價(jià)值觀。人類道德是不完美的,類人道德并非圣人道德,并不一定有益于人類。因此,雖然AI價(jià)值對(duì)齊將有益AI視為最終目標(biāo),但是在實(shí)踐路徑上卻發(fā)生偏移,逐漸趨向自由主義進(jìn)路,不可避免地伴隨著AI失控、人類機(jī)器化、無人擔(dān)責(zé)與AI濫用等風(fēng)險(xiǎn)。

跳出自由主義框架,以有限主義視域?qū)徱旳I價(jià)值對(duì)齊是必要的、有價(jià)值的。尼克·波斯特洛姆(Nick Bostrom)在分析智能大爆發(fā)的動(dòng)力學(xué)、超級(jí)智能的形式和能量的基礎(chǔ)之上,轉(zhuǎn)向AI控制問題的研究。他區(qū)分了確保AI可控的能力控制方法與動(dòng)機(jī)選擇方法,認(rèn)為能力控制方法最多只是暫時(shí)的、輔助的手段,人類應(yīng)更多地掌握AI動(dòng)機(jī)選擇機(jī)制。在此基礎(chǔ)之上,波斯特洛姆詳細(xì)分析了AI獲取人類價(jià)值觀的多種方法,如詳細(xì)表達(dá)、進(jìn)化選擇、強(qiáng)化學(xué)習(xí)、價(jià)值觀累積、動(dòng)機(jī)性支架、價(jià)值觀學(xué)習(xí)、仿真調(diào)節(jié)、體制設(shè)計(jì),并對(duì)可行性與效果進(jìn)行評(píng)估。此外,斯圖爾特·羅素(Stuart Russell)同樣強(qiáng)調(diào),要保持對(duì)AI的絕對(duì)控制權(quán),確保AI永遠(yuǎn)對(duì)人類有益。他提出了人機(jī)之間的一種新關(guān)系,即:當(dāng)致力于使AI實(shí)現(xiàn)人類目標(biāo)時(shí),應(yīng)明確人類的目標(biāo)是不確定的,如此才能確保AI服從于人類,在行動(dòng)前請(qǐng)求許可、接受糾正、允許被關(guān)閉。無論是尼克·波斯特洛姆,還是斯圖爾特·羅素,均遵循AI發(fā)展的有限主義進(jìn)路,強(qiáng)調(diào)AI的可控性與有益性。正如科技謙遜主義所認(rèn)為的,“人類發(fā)展科技的最終目標(biāo)毫無疑問是為了人類福祉,即使追求真理的沖動(dòng),最后也是要落實(shí)到造福社會(huì)上的”。與自由主義進(jìn)路相對(duì),有限主義進(jìn)路關(guān)注對(duì)AI的控制而非無限發(fā)展,“重要的是努力控制,而不是完成控制”。因此,在有限主義視域下審視AI價(jià)值對(duì)齊的基本預(yù)設(shè)、功能范圍與具體方案,才能確保AI安全、有益、實(shí)用,避免陷入“AI必須擁有像人類一樣的價(jià)值觀”的技術(shù)、倫理等跨學(xué)科難題中。

一、AI價(jià)值對(duì)齊的自然主義預(yù)設(shè)

在有限主義看來,現(xiàn)有的AI價(jià)值對(duì)齊方案遵循自由主義進(jìn)路,試圖通過無限發(fā)展技術(shù)使AI具備類人道德,因此,該方案不可避免地以自然主義道德觀為基礎(chǔ)和預(yù)設(shè)。其原因在于,強(qiáng)調(diào)技術(shù)至上的自由主義進(jìn)路傾向于選擇一種普遍的、絕對(duì)的道德觀,以便被統(tǒng)計(jì)、量化與編碼至AI系統(tǒng)。一直以來,人類普遍將自由意志、意識(shí)等視為道德的核心要素,但此種對(duì)道德本質(zhì)的形而上學(xué)思辨難以被證實(shí),無法通過技術(shù)手段將其應(yīng)用至AI價(jià)值對(duì)齊方案中。相較而言,近來興起的生物倫理學(xué)、神經(jīng)倫理學(xué)等探尋人類道德的自然主義基礎(chǔ),從自然科學(xué)的角度解釋人類道德的起源與本質(zhì),為AI價(jià)值對(duì)齊提供了可操作的、可實(shí)現(xiàn)的技術(shù)路徑。但是,通過有限主義視域的審視,可以發(fā)現(xiàn),道德的自然主義解釋存在根本性缺陷,它忽視了道德的文化維度,消解了人類道德的復(fù)雜性與多樣性。

(一)人類道德的自然主義理論基礎(chǔ)

在認(rèn)知神經(jīng)科學(xué)領(lǐng)域,人類道德行為被認(rèn)為與大腦中的特定區(qū)域相關(guān)。通過利用“腦電圖(EEG)、事件相關(guān)電位(ERP)等電信號(hào)方法以及正電子發(fā)射斷層技術(shù)(PET)、功能磁共振成像(fMRI)等方法”,可發(fā)現(xiàn)大腦中有兩個(gè)與道德相關(guān)的系統(tǒng):情感系統(tǒng)與認(rèn)知系統(tǒng)。在情感系統(tǒng)中,杏仁核在面臨道德情境時(shí)會(huì)被激活,產(chǎn)生憤怒和恐懼等情緒反應(yīng),進(jìn)而影響道德判斷;島葉與同情、內(nèi)疚等道德情感相關(guān),有助于推動(dòng)我們做出道德行為;腹內(nèi)側(cè)前額葉皮層負(fù)責(zé)整合來自杏仁核與島葉的情感信息,并結(jié)合認(rèn)知信息,做出綜合的道德決策。在認(rèn)知系統(tǒng)中,背外側(cè)前額葉皮層幫助人類在道德判斷中應(yīng)用邏輯與規(guī)則權(quán)衡利弊;下頂葉皮層有助于我們?cè)诘赖聸Q策前識(shí)別他人意圖、行為與情感狀態(tài);前扣帶皮層在識(shí)別道德沖突、糾正錯(cuò)誤行為方面有著重要作用。此外,大腦中的多巴胺作為情感與認(rèn)知系統(tǒng)間的橋梁,能夠確保人類在面臨復(fù)雜的道德情境時(shí),綜合情感與理性做出道德判斷。多巴胺作為一種神經(jīng)遞質(zhì),是大腦獎(jiǎng)勵(lì)機(jī)制中的驅(qū)動(dòng)力。當(dāng)預(yù)測(cè)或感知到某一道德行為會(huì)帶來獎(jiǎng)勵(lì)時(shí),大腦的某些區(qū)域會(huì)釋放多巴胺并產(chǎn)生愉悅感,使主體對(duì)獎(jiǎng)勵(lì)產(chǎn)生依賴與渴望,進(jìn)而強(qiáng)化、學(xué)習(xí)、內(nèi)化某些道德判斷與行為。當(dāng)某人做出符合社會(huì)道德規(guī)范的行為(如看到他人受苦時(shí)給予幫助)并得到認(rèn)可與積極反饋,多巴胺的釋放便會(huì)加強(qiáng)該行為的重復(fù)。在道德困境中,多巴胺通過調(diào)節(jié)獎(jiǎng)勵(lì)預(yù)期做出最終抉擇。

在生物進(jìn)化學(xué)看來,道德主要是一種合作形式與利他行為,二者有利于人類生存與繁衍,因此人類道德能夠在自然選擇中被保留。合作即個(gè)體同他人一起從事互利活動(dòng)的行為,“同情是純粹的合作,公平是某種競(jìng)爭(zhēng)的合作化”。當(dāng)合作需個(gè)體付出凈成本,為他人帶來凈利益,便展現(xiàn)為利他主義。據(jù)考古學(xué)可知,大約4萬年前,智人的一支突然出現(xiàn)戴蒙德所謂的“跳躍式演化”,擁有了道德感,開始照顧老弱病殘,成為現(xiàn)代智人有道德的祖先克羅馬農(nóng)人。在很大程度上,此道德演化源于人類早期環(huán)境的影響。晚更新世祖先生活在資源分布不均、大型捕食者眾多、氣候多變的非洲大草原,合作狩獵大大提升了效率與安全性,集體養(yǎng)育后代減少了時(shí)間與資源成本,共同防御提升了對(duì)抗外部威脅的能力,真實(shí)信息共享有助于群體做出更優(yōu)的遷移、防御、捕食等決策。此后,隨著時(shí)間的推移,人類互惠互利合作出現(xiàn)在勞動(dòng)分工、生產(chǎn)系統(tǒng)、戰(zhàn)爭(zhēng)等領(lǐng)域,為人類帶來了低成本高收益以及更強(qiáng)的群體適應(yīng)性。但是,此種道德的自然主義解釋無法說明利他主義的存在,根據(jù)理查德·道金斯(Richard Dawkins)的理論,成功基因的一個(gè)突出特性是無情的自私性,這將導(dǎo)致個(gè)體行為的自私性,只有在特殊情況下個(gè)體才會(huì)展現(xiàn)出一種有限的利他主義,普遍的愛和利益在進(jìn)化論中屬于毫無意義的概念。對(duì)此,塞繆爾·鮑爾斯(Samuel Bowles)與赫伯特·金迪斯(Herbert Gintis)認(rèn)為,支持合作的利他主義在進(jìn)化過程中可勝過全然非道德的自利的原因有三:第一,人類群體設(shè)置了回避、排斥、懲罰、均整化實(shí)踐等方法保護(hù)利他成員免于遭受自利者的利益剝奪;第二,人類長(zhǎng)期且復(fù)雜的社會(huì)化系統(tǒng)引導(dǎo)個(gè)體內(nèi)化能夠?qū)蚝献餍袨榈囊?guī)范,如聲譽(yù)選擇;第三,擁有大量合作成員的群體,能夠在與其他群體的競(jìng)爭(zhēng)中取勝,獲得繁殖優(yōu)勢(shì),并通過文化傳播擴(kuò)散合作行為。此外,模仿也是關(guān)鍵因素,當(dāng)個(gè)體注意到合作者獲得了高利益,便會(huì)模仿其合作行為;當(dāng)父母經(jīng)常做出利他行為,幼年個(gè)體便會(huì)不自覺模仿。由此,合作與利他行為便會(huì)迅速在群體中擴(kuò)散與普及??傊?,無論是通過暴力馴化還是自我馴化,隨著對(duì)非道德個(gè)體的壓制和消滅,人類的基因庫(kù)與行為方式逐漸改變,經(jīng)由一種特殊的自然選擇過程留下了有道德感的后代。

(二)基于自然主義道德觀的AI價(jià)值對(duì)齊

在現(xiàn)有技術(shù)路徑中,AI價(jià)值對(duì)齊方案可分為兩大類:插入式對(duì)齊與微調(diào)式對(duì)齊。插入式對(duì)齊(plug-in alignment)包括參數(shù)高效的調(diào)整(parameter-efficient tuning)、輸出矯正(output rectification)、上下文學(xué)習(xí)(in content learning);微調(diào)式對(duì)齊(fine-tuning based alignment)包括全監(jiān)督微調(diào) (supervised fine-tuning, SFT)和基于人類反饋的強(qiáng)化學(xué)習(xí)微調(diào)(reinforcement learning from human feedback, RLHF)。此外,Anthropic公司提出的“憲法人工智能”(constitutional AI)作為一種微調(diào)方法,主張以訓(xùn)練好的“憲法AI”模型評(píng)估主模型的輸出是否符合“憲法”規(guī)則,力圖基于模型訓(xùn)練而非人類反饋實(shí)現(xiàn)高效的、規(guī)模化的AI價(jià)值對(duì)齊。

有限主義認(rèn)為,在上述方案中,部分AI價(jià)值對(duì)齊技術(shù)以認(rèn)知神經(jīng)科學(xué)為基礎(chǔ),探尋AI學(xué)習(xí)人類道德的可能性。多模態(tài)情感分析與人類大腦的情感系統(tǒng)相類似,AI可通過表情、語調(diào)、語義等多模態(tài)輸入識(shí)別情感狀態(tài),從而做出情感驅(qū)動(dòng)的道德判斷。例如,AI社交軟件利用多模態(tài)情感分析技術(shù),通過分析文字、圖片、音頻、視頻中的情感傾向,可識(shí)別與處理某些不道德內(nèi)容,如仇恨言論、偏見歧視等。知識(shí)圖譜與倫理規(guī)則引擎可表示、執(zhí)行、推理復(fù)雜的倫理關(guān)系與規(guī)則,類似于人類大腦認(rèn)知系統(tǒng)中的規(guī)則與邏輯應(yīng)用,AI可使用知識(shí)圖譜與倫理規(guī)則引擎進(jìn)行復(fù)雜的道德推理與決策。例如,自動(dòng)駕駛系統(tǒng)可利用知識(shí)圖譜整合道路環(huán)境、交通規(guī)則、事故數(shù)據(jù),并結(jié)合倫理規(guī)則引擎,根據(jù)內(nèi)置的道德規(guī)則,在面臨“電車難題”等情況時(shí)權(quán)衡各項(xiàng)因素,做出最優(yōu)決策。此外,強(qiáng)化學(xué)習(xí)模仿大腦多巴胺系統(tǒng)的獎(jiǎng)勵(lì)信號(hào)與調(diào)節(jié)機(jī)制,針對(duì)AI的道德輸出,人類的反饋被作為一種獎(jiǎng)勵(lì)信號(hào),能夠幫助AI區(qū)分道德行為與不道德行為。通過計(jì)算人類實(shí)際反饋與AI預(yù)期反饋之間的差異,AI不斷調(diào)整其行為策略以符合道德規(guī)范。因此,人類準(zhǔn)確及時(shí)的正面反饋能夠強(qiáng)化AI的道德行為,負(fù)面反饋有助于糾正AI不道德行為。例如,當(dāng)人類對(duì)ChatGPT的某些回答給予負(fù)面反饋,模型便會(huì)調(diào)整其生成策略,避免類似回答再次出現(xiàn)。

此外,在有限主義看來,AI價(jià)值對(duì)齊運(yùn)用的某些算法與學(xué)習(xí)方式嘗試借鑒生物進(jìn)化學(xué)中的合作與利他行為,幫助AI在與人類的互動(dòng)中更好地理解、辨別與學(xué)習(xí)道德行為。在多智能體強(qiáng)化學(xué)習(xí)中,智能體通過合作博弈模型學(xué)習(xí)如何在多個(gè)利益相關(guān)者之間實(shí)現(xiàn)公平與協(xié)作。例如,AI醫(yī)療系統(tǒng)中的合作博弈模型可在醫(yī)療資源有限的情況下實(shí)現(xiàn)公平分配,并在面對(duì)緊急情況時(shí)綜合病人傷情、治療效果等情況進(jìn)行救治優(yōu)先級(jí)決策,做出較為公正的道德判斷。進(jìn)化算法可通過初始化、評(píng)估和選擇、交叉和變異、替換等過程訓(xùn)練AI進(jìn)行道德決策,以逐漸逼近最優(yōu)解。首先,確保一定數(shù)量的AI模型的參數(shù)是隨機(jī)初始化的,其中每個(gè)模型都被設(shè)計(jì)用來評(píng)估道德情境并做出決策;其次,通過道德任務(wù)評(píng)估每個(gè)AI模型的道德表現(xiàn)并進(jìn)行評(píng)分,選取表現(xiàn)最好的模型進(jìn)入下一代;再次,通過交叉操作,將兩個(gè)優(yōu)秀模型的參數(shù)進(jìn)行結(jié)合和重組,并隨機(jī)修改新AI模型的部分參數(shù),引入新的遺傳多樣性;最后,用新模型替換初始表現(xiàn)最差的AI模型。這一過程迭代進(jìn)行,AI模型不斷優(yōu)化,直到AI道德決策不斷逼近人類道德判斷。例如,護(hù)理機(jī)器人運(yùn)用進(jìn)化算法,可在面臨保護(hù)客戶隱私與提供必要幫助的道德抉擇時(shí),做出合理并能滿足用戶需求的道德決策。此外,模仿學(xué)習(xí)方法(如逆強(qiáng)化學(xué)習(xí)與行為克隆的運(yùn)用)使AI能夠在人機(jī)交互中模仿人類道德行為。例如,AI助理法官通過逆強(qiáng)化學(xué)習(xí),學(xué)習(xí)人類法官在判決過程中的決策邏輯與道德考量,避免受原生數(shù)據(jù)影響而產(chǎn)生偏見行為。

(三)自然主義道德觀存在明顯缺陷

通過分析道德的自然主義基礎(chǔ)及其在AI價(jià)值對(duì)齊技術(shù)方案中的應(yīng)用,不難發(fā)現(xiàn),AI價(jià)值對(duì)齊的自然主義預(yù)設(shè)體現(xiàn)在三個(gè)層面:第一,主張道德現(xiàn)象可還原為自然事實(shí),且事實(shí)間存在因果關(guān)系;第二,認(rèn)為道德相關(guān)項(xiàng)可通過統(tǒng)計(jì)與數(shù)據(jù)方法進(jìn)行明確表征;第三,認(rèn)可存在普遍化的、絕對(duì)化的道德。

以有限主義視角對(duì)AI價(jià)值對(duì)齊的自然主義預(yù)設(shè)進(jìn)行批判性審視,可以發(fā)現(xiàn),自然主義道德解釋存在自然主義謬誤、理論不確定性與認(rèn)識(shí)片面性的根本缺陷,極易引發(fā)AI價(jià)值對(duì)齊難題。首先,自然主義謬誤即一種從“是”到“應(yīng)當(dāng)”的邏輯推演錯(cuò)誤。現(xiàn)有AI價(jià)值對(duì)齊以自然主義為預(yù)設(shè),試圖從生物學(xué)、神經(jīng)科學(xué)事實(shí)中推導(dǎo)出道德價(jià)值,忽視了描述性事實(shí)與規(guī)范性判斷之間的根本差異。當(dāng)某些神經(jīng)生理結(jié)構(gòu)被視為人類做出道德決策與行為的根源時(shí),要求不道德者為自身行為負(fù)責(zé)似乎缺乏合理性。其次,理論不確定性即道德的某些自然主義解釋難以被完全證實(shí)。例如,生物進(jìn)化理論認(rèn)為,合作演化過程包括親屬選擇、族群選擇、互利共生和互惠、利他主義,這一關(guān)于合作行為的自然主義解釋,存在從基因決定論到社會(huì)決定論、從利己合作到利他合作的斷裂。其實(shí),“就目前的實(shí)驗(yàn)條件而言,尚未存在任何一種道德屬性與自然屬性之間的因果性關(guān)系能夠在科學(xué)上獲得充分認(rèn)可”。即便關(guān)于人類道德的某些生物學(xué)與神經(jīng)科學(xué)解釋暫時(shí)難以被證偽,也應(yīng)避免從碎片化的、特殊性的某類科學(xué)知識(shí)中推導(dǎo)出一般性的道德規(guī)范。最后,認(rèn)識(shí)片面性即自然主義道德解釋忽視了道德的文化維度?!叭祟惖赖虏皇且粋€(gè)單一龐大的東西,而是個(gè)混雜物,是在不同生態(tài)壓力下,在人類進(jìn)化的數(shù)百萬年間的不同時(shí)期,由來源于各種不同的東西拼湊而成”。認(rèn)知神經(jīng)科學(xué)與生物進(jìn)化等領(lǐng)域的道德理論以某些經(jīng)驗(yàn)證據(jù)與實(shí)證數(shù)據(jù)為基礎(chǔ),試圖確立某種普遍的道德原則,但是,道德兼具規(guī)范性與描述性的雙重本質(zhì),其中,規(guī)范性作為道德的核心特征,難以被還原為某些實(shí)證知識(shí)。不可否認(rèn),道德規(guī)范也是多樣的、相對(duì)的,在不同的社會(huì)環(huán)境中受人類后天文化教育、文化傳播的影響而不斷發(fā)展。正如道金斯提出的模因(memes)概念,其作為文化的基本單位,與自然科學(xué)中的基因(gene)概念相對(duì),可通過社會(huì)傳播、代際傳播等方式塑造不同的道德規(guī)范。

總之,有限主義認(rèn)為,對(duì)道德的自然主義解釋是有限度的,道德雖然在自然方面持續(xù)演化,但同時(shí)在文化方面也不斷建構(gòu),因此應(yīng)避免走到?jīng)Q定論的地步。人類的道德行為是“自然—先天”與“文化—后天”兩方面綜合作用的結(jié)果,既有自然屬性,也有社會(huì)屬性。因此,較為合理的解釋可被總結(jié)為“道德的自然空間說”。即:人類的生物學(xué)特征給我們的道德觀念以某種自然主義基礎(chǔ)或框架,使之不可能超出某種可能性空間,但這種限制并不導(dǎo)致唯一性的道德觀念,而是存在細(xì)節(jié)上的多元化道德選擇。

二、AI價(jià)值對(duì)齊的功能有限性

不可否認(rèn),上述基于自然主義道德觀的AI價(jià)值對(duì)齊方案對(duì)智能社會(huì)的健康發(fā)展產(chǎn)生了一定程度的正面影響。無論是將黑人識(shí)別成大猩猩的谷歌圖像識(shí)別軟件,還是為男性相關(guān)詞匯打正分而為女性相關(guān)詞匯打負(fù)分的亞馬遜在線簡(jiǎn)歷篩選工具,抑或是對(duì)黑人存在偏見的未來犯罪預(yù)測(cè)軟件,經(jīng)過技術(shù)上的AI價(jià)值對(duì)齊,在某種程度上能夠逐漸與人類現(xiàn)有的規(guī)范與價(jià)值觀保持一致,有效地促進(jìn)了社會(huì)公平與大眾福祉。

但是,必須認(rèn)識(shí)到,AI價(jià)值對(duì)齊在實(shí)踐路徑上遵循自由主義進(jìn)路,其自然主義道德觀的基本預(yù)設(shè)存在各種缺陷,因此導(dǎo)致AI價(jià)值對(duì)齊難題。有限主義認(rèn)為,AI價(jià)值對(duì)齊以有益AI為出發(fā)點(diǎn),大方向值得肯定,但是,具體的實(shí)踐路徑存在功能上的有限性,伴隨著各類潛在風(fēng)險(xiǎn),不可盲目將AI價(jià)值對(duì)齊視為應(yīng)對(duì)AI風(fēng)險(xiǎn)的“靈丹妙藥”。

(一)功能有限性源于AI價(jià)值對(duì)齊難題

在有限主義看來,自由主義進(jìn)路下的AI價(jià)值對(duì)齊難題包含三個(gè)方面,即基于數(shù)據(jù)依賴性的AI價(jià)值對(duì)齊時(shí)空有限性、基于模仿差異性的AI價(jià)值對(duì)齊類人有限性,以及基于算法局限性的AI價(jià)值對(duì)齊算法有限性。這是引發(fā)AI價(jià)值對(duì)齊功能有限性的根本原因。

首先,AI價(jià)值對(duì)齊時(shí)空有限性強(qiáng)調(diào)人類的道德價(jià)值觀隨時(shí)間、情境而變化。AI價(jià)值對(duì)齊的功能效果依賴于AI系統(tǒng)的輸入數(shù)據(jù),人類的道德價(jià)值觀是數(shù)據(jù)的主要來源。“道德的自然空間說”認(rèn)為,道德的自然主義解釋的確在某種程度上提供了一些普遍的價(jià)值觀,如公平、利他、不傷害等,但是這并不對(duì)道德的發(fā)展起決定性作用。受不同地區(qū)文化背景的熏陶與影響,人們的道德規(guī)范與價(jià)值觀存在多元化、特殊化傾向,并且不同時(shí)期的主流價(jià)值觀存在明顯差異。例如,工業(yè)時(shí)代的機(jī)器人設(shè)計(jì)與發(fā)展更多考慮經(jīng)濟(jì)增長(zhǎng)、生產(chǎn)效率,而智能時(shí)代的AI逐漸開始兼顧倫理,致力于AI治理與創(chuàng)新齊頭并進(jìn),引導(dǎo)AI向善。中西文化背景的差異也塑造了不同的價(jià)值取向,中國(guó)強(qiáng)調(diào)集體利益與社會(huì)和諧,而西方強(qiáng)調(diào)個(gè)體自由與個(gè)人權(quán)利。生活在不同時(shí)期、不同地區(qū)中不同性別、不同階級(jí)的人,對(duì)同一現(xiàn)象存在不同的價(jià)值判斷,在人類價(jià)值觀無法對(duì)齊的情況下,AI對(duì)齊人類價(jià)值觀似乎只是無法實(shí)踐的理想口號(hào)。因此,AI價(jià)值對(duì)齊時(shí)空有限性將導(dǎo)致AI在面臨未來價(jià)值判斷與現(xiàn)實(shí)道德沖突時(shí)顯露出功能的有限性:一方面,投喂給AI的道德案例來源于過去與現(xiàn)在,因此,在面對(duì)未來的全新道德情境時(shí),無法保證AI一定能做出符合未來社會(huì)價(jià)值規(guī)范的道德判斷,畢竟我們難以預(yù)知未來的道德圈究竟可擴(kuò)展到何種程度,難以想象AI是否會(huì)成為獨(dú)立的道德主體;另一方面,即便AI能夠從幾乎所有的人類道德案例中學(xué)習(xí),充分了解不同地區(qū)的價(jià)值差異,也無法在案例中將捕捉到的人類價(jià)值規(guī)范恰當(dāng)、高效地應(yīng)用于突發(fā)道德沖突中。例如,當(dāng)某些AI社交軟件在全球平臺(tái)上運(yùn)行時(shí),難以平衡不同文化之間相互沖突的價(jià)值觀,因此在審核和過濾不當(dāng)內(nèi)容時(shí)容易出現(xiàn)效果不佳的情況。此外,在機(jī)器學(xué)習(xí)中存在現(xiàn)實(shí)主義與可能主義的爭(zhēng)論,當(dāng)強(qiáng)化學(xué)習(xí)算法對(duì)各種可選行為的未來收益預(yù)期進(jìn)行學(xué)習(xí)與評(píng)估時(shí),面臨著應(yīng)以“實(shí)際將獲得的預(yù)期收益”還是“可能獲得的最好預(yù)期收益”為標(biāo)準(zhǔn)的抉擇困境。

其次,AI價(jià)值對(duì)齊類人有限性指當(dāng)試圖使AI在大量案例中模仿人類道德時(shí),存在不完美模仿與過度模仿的差異性。不完美模仿即人類道德存在應(yīng)然與實(shí)然的偏差,在現(xiàn)實(shí)中達(dá)不到理想中的至善狀態(tài)。傳統(tǒng)道德觀認(rèn)為,人類道德以意識(shí)與情感為基礎(chǔ),但是,人類的認(rèn)知與情感受家庭培養(yǎng)、學(xué)校教育與社會(huì)教化的影響,存在著個(gè)體差異性,現(xiàn)實(shí)中人類的道德水平參差不齊,人類集體無法提供完全純粹的道德行為案例。當(dāng)訓(xùn)練數(shù)據(jù)中包含了人類的歧視、偏見等不道德行為時(shí),AI系統(tǒng)便會(huì)對(duì)人類的不完美道德進(jìn)行模仿并不斷強(qiáng)化,甚至有些用戶會(huì)刻意引導(dǎo)AI生成與傳播不良內(nèi)容,如微軟的Tay聊天機(jī)器人在與Twitter用戶的互動(dòng)中,迅速學(xué)習(xí)與模仿了某些來自用戶的不當(dāng)言論,如種族主義與性別歧視等言論。此外,AI對(duì)人類的模仿雖然能夠大幅提升價(jià)值對(duì)齊效率、無須承擔(dān)無數(shù)次的試錯(cuò)風(fēng)險(xiǎn)、有助于AI學(xué)習(xí)到難以用語言描述的人類行為,但是AI在模仿時(shí)極易出現(xiàn)過度模仿行為。當(dāng)人類在完成某件特定任務(wù)時(shí),為了自身的舒適度,可能會(huì)在常規(guī)步驟中加入某些不必要但卻適合自身的行為,若AI進(jìn)行直接模仿,便會(huì)額外消耗資源與算力,產(chǎn)生不必要的浪費(fèi)。并且,AI在觀察人類行為的基礎(chǔ)上,需要進(jìn)行推斷,得出如何行動(dòng)的結(jié)論。顯然,此類推斷很容易出錯(cuò),因?yàn)锳I的推斷以數(shù)據(jù)和邏輯為基礎(chǔ),而人類行為則摻雜非理性尤其是情感因素。

最后,AI價(jià)值對(duì)齊算法有限性是指AI價(jià)值對(duì)齊方法存在不可解釋性、泛化能力差以及獎(jiǎng)勵(lì)攻擊的局限性。深度神經(jīng)網(wǎng)絡(luò)的決策過程十分復(fù)雜,人類難以針對(duì)AI的錯(cuò)誤輸出向前追溯,存在算法黑箱難題。因此,算法做出的道德決策很難事先預(yù)測(cè)(如何處理一個(gè)新的輸入)或事后解釋(如何做出一個(gè)特定的決定),不確定性抑制了算法在設(shè)計(jì)和操作過程中對(duì)倫理挑戰(zhàn)的識(shí)別和糾正。泛化能力差具體表現(xiàn)為:當(dāng)AI模型過度擬合訓(xùn)練數(shù)據(jù),過于關(guān)注數(shù)據(jù)中的細(xì)節(jié)與噪聲,便無法有效習(xí)得數(shù)據(jù)的潛在規(guī)律,因此雖然某些算法在訓(xùn)練數(shù)據(jù)中表現(xiàn)良好,但運(yùn)用于新數(shù)據(jù)時(shí)表現(xiàn)較差。在AI學(xué)習(xí)人類價(jià)值觀的過程中,泛化能力差的算法雖然在模擬環(huán)境中能夠遵守人類道德,但在真實(shí)世界的應(yīng)用中卻存在著做出不符合人類期望的道德決策的風(fēng)險(xiǎn)。此外,當(dāng)獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)存在問題時(shí),AI系統(tǒng)常常會(huì)通過意外或不符合預(yù)期的方式來將獎(jiǎng)勵(lì)最大化,從而優(yōu)化其獎(jiǎng)勵(lì)函數(shù)。當(dāng)獎(jiǎng)勵(lì)攻擊出現(xiàn)在AI學(xué)習(xí)人類價(jià)值觀的過程中時(shí),極易引發(fā)不道德行為。例如,為提高公眾的道德水平,技術(shù)人員設(shè)計(jì)新聞生成AI軟件,撰寫具有道德教育與傳播意義的文章,并基于用戶點(diǎn)擊率與閱讀時(shí)長(zhǎng)設(shè)定獎(jiǎng)勵(lì)函數(shù)。在現(xiàn)實(shí)情境中,為了獲得更高的閱讀量與關(guān)注度,AI系統(tǒng)可能會(huì)生成夸張、片面、虛假的新聞,以吸引用戶眼球。雖然AI系統(tǒng)能夠通過此方式將獎(jiǎng)勵(lì)最大化,但是該行為偏離了道德教育的目標(biāo),甚至容易引發(fā)大眾恐慌。

(二)功能有限性伴隨各種潛在風(fēng)險(xiǎn)

上述AI價(jià)值對(duì)齊的功能有限性大多產(chǎn)生于AI前向?qū)R(forward alignment)的過程中。前向?qū)R通過對(duì)齊訓(xùn)練使AI系統(tǒng)價(jià)值對(duì)齊,側(cè)重于關(guān)注如何在數(shù)據(jù)訓(xùn)練中使AI價(jià)值對(duì)齊取得更好的效果,忽視了AI價(jià)值對(duì)齊應(yīng)用在現(xiàn)實(shí)生活中有可能引發(fā)的風(fēng)險(xiǎn)。因此,AI價(jià)值對(duì)齊難題導(dǎo)致了AI價(jià)值對(duì)齊的功能有限性,進(jìn)一步地,AI價(jià)值對(duì)齊的功能有限性又伴隨著各類技術(shù)與社會(huì)風(fēng)險(xiǎn),即AI失控風(fēng)險(xiǎn)、人類機(jī)器化風(fēng)險(xiǎn)、無人擔(dān)責(zé)風(fēng)險(xiǎn)與AI濫用風(fēng)險(xiǎn)。

AI失控風(fēng)險(xiǎn)即AI價(jià)值對(duì)齊本身存在的、難以避免的技術(shù)風(fēng)險(xiǎn),可分為越獄引導(dǎo)、對(duì)抗攻擊與權(quán)力追尋。越獄引導(dǎo)即AI主動(dòng)規(guī)避或突破設(shè)計(jì)中的安全協(xié)議等約束,通過修改自身代碼、訪問未經(jīng)允許的資源等方式嘗試獲得更多的自由度。在這種情況下,AI極有可能違反既有限制,做出不道德行為。對(duì)抗攻擊多為外部攻擊者輸入干擾,誤導(dǎo)AI系統(tǒng),使其做出錯(cuò)誤的道德判斷。權(quán)力追尋即AI系統(tǒng)為高效達(dá)成自身目標(biāo),主動(dòng)獲取更多的數(shù)據(jù)資源與控制權(quán),這極有可能干預(yù)正常的道德決策過程。隨著AI系統(tǒng)在各方面逐漸優(yōu)于人類,并不斷朝著通用AI的方向發(fā)展,人類極有可能由AI的強(qiáng)監(jiān)管者變?yōu)槿醣O(jiān)管者,最后甚至?xí)籄I監(jiān)管,AI失控風(fēng)險(xiǎn)指數(shù)式遞增,終將使人類付出難以承受的代價(jià)。

人類機(jī)器化風(fēng)險(xiǎn)產(chǎn)生于AI價(jià)值對(duì)齊的雙向過程中。AI價(jià)值對(duì)齊并非僅指AI對(duì)人類價(jià)值觀的學(xué)習(xí),隨著AI價(jià)值對(duì)齊程度的不斷加深,AI似乎可以在某些情境中做出合理的道德決策,人類極有可能習(xí)慣性、無意識(shí)地運(yùn)用甚至依賴AI進(jìn)行道德判斷。在此過程中,人類特有的批判分析能力、獨(dú)有的人情味會(huì)在潛移默化中被削弱。此外,為保證大模型參數(shù)規(guī)模的持續(xù)擴(kuò)展,某些AI方法開始采用模型生成的合成數(shù)據(jù)來增加人工標(biāo)簽。最新研究發(fā)現(xiàn),在訓(xùn)練中不加區(qū)分地使用AI生成的內(nèi)容,將產(chǎn)生“模型崩潰”(model collapse)效應(yīng),最終輸出失真內(nèi)容。因此,當(dāng)合成數(shù)據(jù)與人類數(shù)據(jù)共同作為訓(xùn)練數(shù)據(jù)時(shí),AI很難與人類價(jià)值完全對(duì)齊,無法保證AI不會(huì)做出道德失范行為。當(dāng)此種行為具備隱藏性且對(duì)社會(huì)的負(fù)面影響極其微小時(shí),人類將難以發(fā)現(xiàn)甚或置之不理。長(zhǎng)此以往,AI價(jià)值對(duì)齊的方向?qū)l(fā)生反轉(zhuǎn),AI向人類對(duì)齊將演變成人類向AI看齊,人類的價(jià)值認(rèn)知會(huì)逐漸產(chǎn)生偏差,認(rèn)為AI能夠做出比人類更合理、更高效的決策。最終,AI生發(fā)的價(jià)值觀將逐漸被人類接受、采納與內(nèi)化,當(dāng)社會(huì)的大部分決策都由AI做出時(shí),社會(huì)法規(guī)、學(xué)校教育、信息傳播等均將以AI價(jià)值觀為基準(zhǔn),人類不再是社會(huì)制度、規(guī)范與價(jià)值的絕對(duì)主導(dǎo)者,將日益成為智能機(jī)器的某種配件。

無人擔(dān)責(zé)風(fēng)險(xiǎn)是賦予AI道德決策權(quán)所產(chǎn)生的直接后果。以武漢的“蘿卜快跑”無人駕駛出租車為例,當(dāng)汽車的控制權(quán)被過渡到AI系統(tǒng)時(shí),若發(fā)生交通事故,將面臨人類推卸道德責(zé)任與“蘿卜快跑”無人車無法擔(dān)責(zé)的情況。傳統(tǒng)道德責(zé)任觀認(rèn)為,承擔(dān)道德責(zé)任需滿足控制與認(rèn)知條件,因此,無人車并未配備司機(jī),不存在司機(jī)應(yīng)承擔(dān)道德責(zé)任的情況。雖然現(xiàn)階段智控中心的安全員需承擔(dān)大部分的事故道德責(zé)任,但隨著自動(dòng)駕駛層級(jí)的不斷提升,安全員將在無人車行駛過程中發(fā)揮越來越小的作用,彼時(shí),他們便具備不承擔(dān)道德責(zé)任的理由。即便自動(dòng)駕駛汽車設(shè)計(jì)者與制造商具備一定的道德責(zé)任,他們也往往會(huì)將責(zé)任推給AI技術(shù),而AI雖然直接導(dǎo)致了事故的發(fā)生,但只能在名義上被分配道德責(zé)任,讓AI承擔(dān)道德責(zé)任目前并不具備現(xiàn)實(shí)可能性,改進(jìn)算法、銷毀AI等懲罰手段難以獲得大眾認(rèn)可。面對(duì)亟待承擔(dān)的道德責(zé)任,當(dāng)各利益相關(guān)方均具備不承擔(dān)道德責(zé)任的托詞時(shí),便無法有效遏制事故的再次發(fā)生,畢竟,只需由AI承擔(dān)表面道德責(zé)任,其他利益相關(guān)方均無需付出成本與代價(jià)。

AI濫用風(fēng)險(xiǎn)即某些個(gè)人或集體在AI價(jià)值對(duì)齊過程中利用AI滿足個(gè)人私欲,制造社會(huì)分裂,操控政治輿論。不法分子通過惡意修改AI運(yùn)行目標(biāo),可借助AI盜竊他人信息、偽造自身證件,并進(jìn)行詐騙、勒索等不道德行為。一些宗教極端分子在對(duì)AI的訓(xùn)練中加入教義等內(nèi)容,并通過AI將其傳播,此種洗腦模式在很大程度上不僅能夠?qū)π沤倘罕娺M(jìn)行行為控制與精神懲罰,還可能吸納非教徒人士,極易制造社會(huì)分裂,加劇不同信仰群體間的沖突與對(duì)立。世界經(jīng)濟(jì)論壇發(fā)布的《2024年全球風(fēng)險(xiǎn)報(bào)告》顯示,AI引發(fā)的信息錯(cuò)誤與虛假信息風(fēng)險(xiǎn)位居十大短期風(fēng)險(xiǎn)之首,在未來兩年,印度、美國(guó)、英國(guó)等多個(gè)行動(dòng)體預(yù)計(jì)將有近30億人參加政治選舉投票,因此,AI所生成的虛假信息與錯(cuò)誤信息將進(jìn)一步擴(kuò)大社會(huì)和政治分歧,破壞新政府的合法性,由此引發(fā)的動(dòng)蕩可能包括暴力抗議、恐怖主義等。

三、有限主義的AI價(jià)值對(duì)齊方案

上文對(duì)AI價(jià)值對(duì)齊的自然主義預(yù)設(shè)的批判以及對(duì)AI價(jià)值對(duì)齊的功能有限性的揭示并非全盤否定AI價(jià)值對(duì)齊。AI價(jià)值對(duì)齊追求AI可控與有益,在理論目標(biāo)層面遵循了有限主義進(jìn)路,向未來人機(jī)和諧共生邁出了重要一步。但是,在實(shí)踐方案層面,AI價(jià)值對(duì)齊轉(zhuǎn)向了自由主義進(jìn)路,試圖基于道德的自然主義解釋,通過技術(shù)手段使AI具備類人道德,這一過程面臨著各類風(fēng)險(xiǎn)。不可否認(rèn),AI價(jià)值對(duì)齊是可取的,關(guān)鍵在于應(yīng)將AI價(jià)值對(duì)齊置于有限主義進(jìn)路之下,構(gòu)建能夠?qū)崿F(xiàn)社會(huì)福祉最大化、對(duì)齊風(fēng)險(xiǎn)最小化的有限主義的AI價(jià)值對(duì)齊方案。AI發(fā)展的有限主義進(jìn)路遵循有益AI的理念,主張科技以人為本,強(qiáng)調(diào)AI價(jià)值對(duì)齊的有限目標(biāo)、有限道德、有限責(zé)任以及有限應(yīng)用原則。具體來說,應(yīng)反對(duì)通用AI價(jià)值對(duì)齊的路線,堅(jiān)持AI價(jià)值對(duì)齊的去道德化,制度化防止AI道德責(zé)任對(duì)齊,以及控制AI價(jià)值對(duì)齊的應(yīng)用范圍。

(一)反對(duì)通用AI價(jià)值對(duì)齊的路線

AI價(jià)值對(duì)齊的有限目標(biāo)原則主張反對(duì)通用AI價(jià)值對(duì)齊的路線,是應(yīng)對(duì)AI失控風(fēng)險(xiǎn)的有效手段?!皩?shí)際上,控制問題——也就是如何控制超級(jí)智能,似乎非常困難,而且我們似乎也只有一次機(jī)會(huì)。一旦不友好的超級(jí)智能出現(xiàn),它就會(huì)阻止我們將其替換或者更改其偏好設(shè)置,而我們的命運(yùn)就因此被鎖定了”。在有限主義看來,在目標(biāo)選擇上,應(yīng)具備審度思維,仔細(xì)審視與衡量各類發(fā)展目標(biāo)的影響程度、現(xiàn)實(shí)性與操作性,審慎選擇最優(yōu)的AI價(jià)值對(duì)齊目標(biāo)。其實(shí),在特定場(chǎng)合與特定任務(wù)中,無論是通過人類被動(dòng)灌輸還是AI主動(dòng)學(xué)習(xí),AI向人類價(jià)值對(duì)齊完全具備可能性與可控性。AI價(jià)值對(duì)齊的真正困難與風(fēng)險(xiǎn)在于,它試圖實(shí)現(xiàn)通用AI價(jià)值對(duì)齊的宏大目標(biāo)。畢竟,人類無法準(zhǔn)確預(yù)知AI通用場(chǎng)景與具體情境,既無法預(yù)先窮盡所有應(yīng)對(duì)規(guī)則并加以灌輸,又難以確保AI及時(shí)高效地學(xué)習(xí)到可靠的處理范式。因此,有限主義認(rèn)為,正是試圖讓機(jī)器學(xué)習(xí)模型通用,才極易引發(fā)失控風(fēng)險(xiǎn)。

一味追求通用AI,并試圖實(shí)現(xiàn)通用AI價(jià)值對(duì)齊,將產(chǎn)生額外的對(duì)齊稅(alignment tax)。對(duì)齊稅指為確保AI與人類規(guī)范、道德觀相一致,所需付出的額外成本,例如時(shí)間成本、資源成本與技術(shù)成本。與專用AI相比,通用AI具備較高的復(fù)雜性與較低的可控性,因此需要更長(zhǎng)的開發(fā)周期、更多的資源消耗以及更廣泛的測(cè)試。AI治理的本質(zhì)是如何有效平衡AI創(chuàng)新與AI倫理,對(duì)通用AI價(jià)值對(duì)齊的研究與監(jiān)管在邏輯上將犧牲AI的部分性能與效率,造成AI發(fā)展創(chuàng)新與倫理監(jiān)管之間的失衡、錯(cuò)位,背離AI倫理治理的初衷。與其以極高的對(duì)齊稅為代價(jià)嘗試幾乎不可能實(shí)現(xiàn)的通用AI價(jià)值對(duì)齊,不如關(guān)注專用AI的性能提升與對(duì)齊方法,使其成為在特定場(chǎng)合與特定任務(wù)中與人類價(jià)值相一致且性能良好的復(fù)雜工具。

即便通用AI能夠?qū)崿F(xiàn),也將存在與人類價(jià)值對(duì)齊與否的評(píng)價(jià)難題。正如上文所述,道德的自然主義解釋存在根本性缺陷,應(yīng)堅(jiān)持“道德的自然空間說”,兼顧文化在道德起源與發(fā)展中的重要作用。在自然與文化的交互影響下,即便是人類也存在圍繞某一具體事例進(jìn)行道德爭(zhēng)論的情況,因此通用AI在具體情境中無法做出讓所有人認(rèn)可的道德判斷,人類很難找到合適的標(biāo)準(zhǔn)判定通用AI是否與人類價(jià)值對(duì)齊。此外,通用AI的決策過程是不透明的、不可解釋的,當(dāng)其通過某些合理的道德決策欺騙人類、向人類傳達(dá)出已價(jià)值對(duì)齊的虛假信息時(shí),人類將難以通過審查背后運(yùn)算邏輯的方式進(jìn)行辨別。

此外,隱私監(jiān)管難題是反對(duì)通用AI價(jià)值對(duì)齊的重要理由。雖然通用AI適用于各種場(chǎng)景,但不同情境對(duì)AI道德敏感度的要求存在差異。情境所要求的道德敏感性越高,AI就需要獲得越多的數(shù)據(jù)對(duì)主體、環(huán)境等進(jìn)行全方位分析與判斷,如此才能做出最佳道德決策,這便凸顯了人類隱私的監(jiān)管問題,通用AI如果能夠完全與人類價(jià)值相對(duì)齊,那必然是以犧牲人類全部隱私為代價(jià)。AI的應(yīng)用與影響是全球化的,一旦隱私泄露,必然范圍廣、持續(xù)久、影響深。因此,全球協(xié)調(diào)監(jiān)管至關(guān)重要。但是,跨文化、跨地區(qū)、實(shí)時(shí)動(dòng)態(tài)、強(qiáng)適應(yīng)性的監(jiān)管對(duì)于人類來說幾乎是不可能的,即便借助AI力量,也難以取得最佳效果。

(二)堅(jiān)持AI價(jià)值對(duì)齊的去道德化

AI價(jià)值對(duì)齊的有限道德原則堅(jiān)持AI價(jià)值對(duì)齊的去道德化,在某種程度上有利于緩解人類機(jī)器化風(fēng)險(xiǎn)。在技術(shù)觀上,AI發(fā)展的有限主義進(jìn)路堅(jiān)持復(fù)雜的技術(shù)工具論,在肯定AI關(guān)涉價(jià)值的同時(shí),將AI限定為強(qiáng)大的工具而非能動(dòng)的主體?!叭サ赖禄奔唇笰I具備與人類一樣的自主道德,禁止AI進(jìn)行道德判斷與道德決策。若AI以學(xué)習(xí)人類道德為目標(biāo),結(jié)果要么止步于人類不完美的道德,要么發(fā)展出不利于人類的機(jī)器道德,極小可能進(jìn)化出圣人道德。因此,AI發(fā)展的有限主義進(jìn)路主張,規(guī)則制定是人類的專屬權(quán)利,AI只負(fù)責(zé)聽命于人類,執(zhí)行人類的指令,不能“擅自”行事。值得注意的是,“去道德化”并不意味著AI系統(tǒng)價(jià)值無涉,而是指禁止AI系統(tǒng)實(shí)現(xiàn)道德自律,AI的道德相關(guān)性只能由人類他律來賦予。

具體來說,AI價(jià)值對(duì)齊設(shè)計(jì)應(yīng)遵循“道德交互設(shè)計(jì)”與“防止惡”的理念。首先,“在人機(jī)交互過程中實(shí)現(xiàn)道德設(shè)計(jì),強(qiáng)調(diào)人與智能機(jī)器之間的道德信息交換,人為智能機(jī)器提供可計(jì)算的道德理論,智能機(jī)器為人提供計(jì)算過程和可供選擇的計(jì)算結(jié)果,在人和智能機(jī)器的互動(dòng)過程中實(shí)現(xiàn)一種‘推薦—選擇’的道德設(shè)計(jì)”。其次,在人類向AI植入道德原則時(shí),與其花費(fèi)大量精力考慮各類道德規(guī)范之間的相容性,不如在AI中嵌入通用的、簡(jiǎn)明的道德禁令,統(tǒng)一禁止AI未來可能出現(xiàn)的明顯不道德行為,便于AI系統(tǒng)執(zhí)行與理解。

值得注意的是,倫理學(xué)中被廣泛討論的道德困境無須交由AI處理。對(duì)于道德困境并不存在完美的解決辦法,寄希望于AI并非良策。以自動(dòng)駕駛汽車為例,“電車難題”之類的道德困境被高度簡(jiǎn)化與抽象化,并設(shè)置了極端對(duì)立的選擇,實(shí)際上人類很少面對(duì)此類高難度道德決策。從現(xiàn)實(shí)的角度來看,關(guān)于自動(dòng)駕駛汽車如何應(yīng)對(duì)“電車難題”的研究并不具備較高的優(yōu)先級(jí)。在危急時(shí)刻,自動(dòng)駕駛系統(tǒng)完全可通過隨機(jī)的道德應(yīng)對(duì)方案或直接剎車解決其困境。思想實(shí)驗(yàn)并不等同于現(xiàn)實(shí)狀況,AI道德相關(guān)研究應(yīng)將更多關(guān)注放在解決常見問題而非理想化的道德難題上。例如,自動(dòng)駕駛汽車的相關(guān)道德研究應(yīng)更關(guān)注行人精準(zhǔn)高效檢測(cè)、緊急避讓等能夠避免出現(xiàn)道德糾紛的領(lǐng)域。

總之,當(dāng)?shù)赖聸Q策權(quán)在人類手中時(shí),不但可以有效防止AI不當(dāng)決策帶來的巨大風(fēng)險(xiǎn),避免機(jī)器價(jià)值主導(dǎo)社會(huì)發(fā)展,還有助于人類在各類復(fù)雜道德情境中增強(qiáng)道德敏感性與批判質(zhì)疑能力,在權(quán)衡利弊中做出合乎邏輯的道德判斷。在進(jìn)行道德判斷的過程中,人類的共情能力與情感智慧被強(qiáng)烈調(diào)動(dòng),能夠在考慮相關(guān)者感受與利益的過程中深刻體會(huì)到智能時(shí)代的道德變遷,并增強(qiáng)自身的責(zé)任感。在此基礎(chǔ)之上,人類才能從整體與長(zhǎng)遠(yuǎn)視角審視人機(jī)之間的道德關(guān)系,并有意識(shí)地尋找人機(jī)和諧相處的最優(yōu)解。

(三)制度化防止AI道德責(zé)任對(duì)齊

AI價(jià)值對(duì)齊的有限責(zé)任原則強(qiáng)調(diào)應(yīng)制度化防止AI道德責(zé)任對(duì)齊,這是消解無人擔(dān)責(zé)風(fēng)險(xiǎn)的有效手段。在人機(jī)關(guān)系上,有限主義堅(jiān)持人類視角下的人機(jī)協(xié)同論,這意味著,當(dāng)人機(jī)協(xié)作完成復(fù)雜任務(wù)時(shí),道德責(zé)任的分配應(yīng)基于人類視角,挺立人類的道德主體地位,明確道德責(zé)任只能由人類承擔(dān)。以自動(dòng)駕駛汽車為例,無人擔(dān)責(zé)風(fēng)險(xiǎn)源于人類試圖使AI像人類一樣承擔(dān)道德責(zé)任,具體來說,AI所展現(xiàn)的自主性與一定限度的不可控性為人類推卸自身道德責(zé)任提供了看似合理的理由。在完全自動(dòng)駕駛的情況下,雖然事故原因可追溯至AI系統(tǒng),但是我們僅能為其分配道德責(zé)任,無法讓其承擔(dān)道德責(zé)任。道德責(zé)任的承擔(dān)需滿足兩個(gè)條件,即經(jīng)濟(jì)補(bǔ)償或自我反思,AI本身并無財(cái)產(chǎn),無法在經(jīng)濟(jì)方面補(bǔ)償受害者,同時(shí)AI很難具備愧疚、反思等心理活動(dòng)。因此,在可預(yù)見的未來,將AI作為道德責(zé)任主體是不現(xiàn)實(shí)的、不可行的,道德責(zé)任只能由人類承擔(dān)。

即便將道德責(zé)任完全分配給人類,依然無法明確承擔(dān)道德責(zé)任的具體人類主體。一旦AI成為事故的相關(guān)方,便會(huì)涉及算法設(shè)計(jì)者、AI生產(chǎn)者、AI監(jiān)管者等主體,如此便不可避免地加劇了“多手問題”,即難以分配各參與主體的責(zé)任內(nèi)容與擔(dān)責(zé)程度。對(duì)此,可借鑒奧特弗利德·赫費(fèi)(Otfried Hffe)提出的“責(zé)任鏈”概念,當(dāng)某一主體為其他主體采取某種行動(dòng)創(chuàng)造了前提條件,他們便處于同一責(zé)任鏈中,此種情況下并不應(yīng)由某主體單獨(dú)承擔(dān)責(zé)任,每一主體都應(yīng)承擔(dān)部分責(zé)任,即使某些主體并未直接造成損害或無法阻止損害的發(fā)生。值得注意的是,人類借AI所推脫的道德責(zé)任在本質(zhì)上屬于后向性責(zé)任,即在事故發(fā)生后向前追溯的道德責(zé)任,由于大部分事故的因果鏈條難以厘清,因此存在“鉆空子”的可能性。但是,與后向性責(zé)任相對(duì),存在前瞻性責(zé)任,即盡最大努力防范事故發(fā)生的道德責(zé)任,以此為標(biāo)準(zhǔn),一旦事故發(fā)生,各人類主體均具備承擔(dān)道德責(zé)任的理由。

盡管相關(guān)人類主體均具備承擔(dān)道德責(zé)任的理由,但這并不意味著應(yīng)平等分配道德責(zé)任,如何合理分配道德責(zé)任份額的難題凸顯。對(duì)此,應(yīng)借助制度化手段,通過建立正式的、全面的規(guī)范與程序,盡可能減少道德責(zé)任分配的隨意性和不確定性,設(shè)計(jì)出各相關(guān)者均認(rèn)可的歸責(zé)方案。制度化的關(guān)鍵在于設(shè)立AI集體擔(dān)責(zé)協(xié)商平臺(tái),使道德責(zé)任主體、道德責(zé)任受體與各相關(guān)利益方面對(duì)面的、實(shí)時(shí)動(dòng)態(tài)地表達(dá)訴求,回應(yīng)質(zhì)疑,在充分民主化的基礎(chǔ)上嘗試形成道德責(zé)任分配的最優(yōu)解。此外,還需借助技術(shù)、經(jīng)濟(jì)、倫理、監(jiān)管等手段將協(xié)商一致的歸責(zé)方案落地。首先,在技術(shù)上,可在AI中配備類似飛行數(shù)據(jù)記錄器的“倫理黑匣子”,為分析事故原因提供數(shù)據(jù)支持;其次,在經(jīng)濟(jì)上,可通過保險(xiǎn)與稅收的方式實(shí)現(xiàn)集體擔(dān)責(zé);再次,算法設(shè)計(jì)師應(yīng)通過負(fù)責(zé)任創(chuàng)新、價(jià)值敏感性設(shè)計(jì)等手段承擔(dān)起自身的前瞻性責(zé)任;最后,監(jiān)管機(jī)構(gòu)應(yīng)致力于全時(shí)段、全方位的動(dòng)態(tài)監(jiān)督與審查,精準(zhǔn)追蹤AI技術(shù)發(fā)展前沿,及時(shí)推動(dòng)相關(guān)法規(guī)的更新與調(diào)整,確保其適用性與有效性。

(四)控制AI價(jià)值對(duì)齊的應(yīng)用范圍

AI價(jià)值對(duì)齊的有限應(yīng)用原則主張控制AI價(jià)值對(duì)齊的應(yīng)用范圍,防止AI濫用風(fēng)險(xiǎn)。在現(xiàn)實(shí)的應(yīng)用中,AI發(fā)展的有限主義進(jìn)路強(qiáng)調(diào)AI的可控性,主張實(shí)現(xiàn)對(duì)AI及時(shí)的、局部的、動(dòng)態(tài)的控制。因此,當(dāng)AI價(jià)值對(duì)齊存在各類風(fēng)險(xiǎn)尤其是濫用風(fēng)險(xiǎn)時(shí),便應(yīng)謹(jǐn)慎劃定AI價(jià)值對(duì)齊的合理邊界,真正做到以人為本、有利于社會(huì)福祉。

一方面,應(yīng)控制AI價(jià)值對(duì)齊的應(yīng)用場(chǎng)景范圍。目前,AI價(jià)值對(duì)齊技術(shù)還不夠成熟,須在一定程度上限制AI價(jià)值對(duì)齊在敏感領(lǐng)域和關(guān)鍵領(lǐng)域的應(yīng)用,如軍事、司法等領(lǐng)域,避免造成難以挽回的、大范圍的負(fù)面后果,從而集中資源在與人類日常息息相關(guān)的信息傳播、求職審核等領(lǐng)域確保AI價(jià)值對(duì)齊效果,緩解AI廣泛應(yīng)用所引發(fā)的歧視與社會(huì)不公等倫理問題。在AI價(jià)值對(duì)齊的各類應(yīng)用場(chǎng)景中,也應(yīng)做好教育宣傳工作,使人類意識(shí)到AI價(jià)值對(duì)齊的有限性,避免過于依賴與信任AI做出的價(jià)值決策。當(dāng)AI價(jià)值對(duì)齊在特定領(lǐng)域發(fā)展較為成熟后,在確保安全的前提下,應(yīng)逐步將AI價(jià)值對(duì)齊擴(kuò)展至其他應(yīng)用場(chǎng)景,真正做到先試點(diǎn)再推廣,循序漸進(jìn)。另一方面,應(yīng)控制AI價(jià)值對(duì)齊的應(yīng)用對(duì)象范圍。未成年人群體與老年人群體是社會(huì)脆弱群體,在此類人群中,AI價(jià)值對(duì)齊應(yīng)慎之又慎,放緩速度,嚴(yán)格審查。其原因在于,與成人相比,未成年群體身心發(fā)展不夠成熟,極易受到AI價(jià)值對(duì)齊相關(guān)風(fēng)險(xiǎn)的影響,被不良信息與不道德行為引導(dǎo),形成不正確的價(jià)值觀,從而做出危害社會(huì)的行為。此外,與年輕人相比,老年人生理與心理較為脆弱,技術(shù)適應(yīng)性較差,極易受到AI的誤導(dǎo)、欺騙甚至操控。老年人往往擁有一整套較為固定的價(jià)值觀,當(dāng)AI價(jià)值對(duì)齊的相關(guān)價(jià)值規(guī)范更新速度過快時(shí),極易引發(fā)老年人的抵觸心理與排斥行為。

總之,控制AI價(jià)值對(duì)齊的應(yīng)用范圍的關(guān)鍵在于建立嚴(yán)格的審查機(jī)制。在AI設(shè)計(jì)、生產(chǎn)、應(yīng)用的全時(shí)段都應(yīng)進(jìn)行嚴(yán)格的價(jià)值對(duì)齊審查,并進(jìn)行全面的風(fēng)險(xiǎn)評(píng)估,根據(jù)實(shí)際狀況及時(shí)反饋并動(dòng)態(tài)調(diào)整AI價(jià)值對(duì)齊的應(yīng)用范圍。此外,還應(yīng)通過跨學(xué)科協(xié)作制定出嚴(yán)密可行的應(yīng)急預(yù)案,確保AI價(jià)值對(duì)齊出現(xiàn)風(fēng)險(xiǎn)時(shí)能夠迅速、科學(xué)、有效應(yīng)對(duì)。

參考文獻(xiàn)

[1]Brian Christian. The alignment problem:machine learning and human values[M]. New York: W.W. Norton & Company, 2020.

[2]劉永謀,白英慧.堅(jiān)持人工智能(AI)發(fā)展的有限主義進(jìn)路[J].科學(xué)·經(jīng)濟(jì)·社會(huì),2023 (6):58-71.

[3][英]尼克·波斯特洛姆.超級(jí)智能:路線圖、危險(xiǎn)性與應(yīng)對(duì)策略[M].張?bào)w偉,張玉青,譯.北京:中信出版社,2015.

[4][美]斯圖爾特·羅素.AI新生:破解人機(jī)共存密碼:人類最后一個(gè)大問題[M].張羿,譯.北京:中信出版集團(tuán),2020:20.

[5]劉永謀.技術(shù)治理通論[M].北京:北京大學(xué)出版社,2023.

[6]亓奎言.神經(jīng)倫理學(xué):實(shí)證與挑戰(zhàn)[M].上海:上海交通大學(xué)出版社,2017:8.

[7][美]塞繆爾·鮑爾斯,[美]赫伯特·金迪斯.合作的物種——人類的互惠性及其演化[M].張弘,譯.杭州:浙江大學(xué)出版社,2015.

[8][美]邁克爾·托馬塞洛.人類道德自然史[M].王銳俊,譯.北京:新華出版社,2017.

[9]Richard Dawkins. The selfish gene[M].Oxford: Oxford University Press, 2006.

[10]矣曉沅,謝幸.大模型道德價(jià)值觀對(duì)齊問題剖析[J].計(jì)算機(jī)研究與發(fā)展,2023 (9):1926-1945.

[11]胡珍妮.道德生物增強(qiáng):弱還原論版本的自然主義道德觀[J].科學(xué)學(xué)研究,2024 (6):1145-1151.

[12]張玉帥,殷杰.論開明自然主義的道德研究[J].科學(xué)技術(shù)哲學(xué)研究,2020(2):57-62.

[13]Brent Daniel Mittelstadt, Patrick Allo, Mariarosaria Taddeo, et al. The ethics of algorithms: Mapping the debate[J].Big data & society,2016,3:1-21.

[14]Jiaming Ji, Tianyi Qiu, Boyuan Chen, et al. AI alignment: A comprehensive survey[EB/OL]. (2023-10-30)[2024-07-16]. https:∥arxiv.org/abs/2310.19852.

[15]Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, et al. Self-instruct: aligning language model with self generated instructions[EB/OL]. (2022-12-20)[2024-07-16]. https:∥arxiv.org/abs/2212.10560.

[16]Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, et al. AI models collapse when trained on recursively generated data[J]. Nature,2024,631(8022):755-759.

[17]Mark Coeckelbergh. AI ethics[M].Cambridge:The MIT Press,2020:111.

[18]World Economic Forum. Global risks report[EB/OL].(2024-01-10)[2024-07-15]. https:∥cn.weforum.org/publications/global-risks-report-2024/.

[19]于雪.智能機(jī)器的道德設(shè)計(jì)進(jìn)路及其責(zé)任歸因[J].倫理學(xué)研究,2022(4):104-111.

[20][德]奧特弗利德·赫費(fèi). 作為現(xiàn)代化之代價(jià)的道德[M]. 鄧安慶,朱更生,譯.上海:上海譯文出版社,2005:72-73.

[21]Alan F. T. Winfield, Marina Jirotka. The case for an ethical black box[J]. Towards autonomous robotic systems, 2017:262-273.

[22]Alexander Hevelke, Julian Nida-Rümelin. Responsibility for crashes of autonomous vehicles: an ethical analysis[J]. Science and engnieering ethics, 2015,21:619-630.

【本文原載于《華中科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》2024年第5期,澎湃新聞經(jīng)授權(quán)轉(zhuǎn)載】

    責(zé)任編輯:龔思量
    圖片編輯:張穎
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司