下載客戶端

登錄

人工智能價(jià)值對(duì)齊的哲學(xué)反思｜有限主義視域下的人工智能價(jià)值對(duì)齊

劉永謀（中國(guó)人民大學(xué)哲學(xué)院教授）；白英慧（中國(guó)人民大學(xué)哲學(xué)院博士研究生）

2024-11-10 13:23

來源：澎湃新聞

現(xiàn)有人工智能（artificial intelligence，簡(jiǎn)稱AI）價(jià)值對(duì)齊方案試圖借助自然科學(xué)的經(jīng)驗(yàn)證據(jù)與實(shí)證方法厘清人類道德的自然主義基礎(chǔ)，并通過技術(shù)手段將其應(yīng)用到AI對(duì)人類價(jià)值觀的學(xué)習(xí)之中，忽視了道德的自然主義解釋的根本性缺陷，引發(fā)了AI價(jià)值對(duì)齊難題。有限主義認(rèn)為，現(xiàn)有AI價(jià)值對(duì)齊方案主張使AI具備類人道德，在本質(zhì)上遵循AI發(fā)展的自由主義進(jìn)路。這過于樂觀化、理想化。在現(xiàn)實(shí)中，時(shí)空有限性、類人有限性與算法有限性等難題導(dǎo)致AI價(jià)值對(duì)齊的功能有限性。同時(shí)，AI價(jià)值對(duì)齊的功能有限性又伴隨著各類技術(shù)風(fēng)險(xiǎn)與社會(huì)風(fēng)險(xiǎn)，即AI失控風(fēng)險(xiǎn)、人類機(jī)器化風(fēng)險(xiǎn)、無人擔(dān)責(zé)風(fēng)險(xiǎn)與AI濫用風(fēng)險(xiǎn)。對(duì)此，應(yīng)堅(jiān)持有限主義的AI價(jià)值對(duì)齊方案，反對(duì)通用AI價(jià)值對(duì)齊的路線，堅(jiān)持AI價(jià)值對(duì)齊的去道德化，制度化防止AI道德責(zé)任對(duì)齊，以及控制AI價(jià)值對(duì)齊的應(yīng)用范圍。

劉永謀，中國(guó)人民大學(xué)哲學(xué)院教授、博士研究生導(dǎo)師

隨著AI的普遍化與強(qiáng)大化，人類正處于“魔法師學(xué)徒”的境地，對(duì)齊問題（the alignment problem）成為最緊迫的問題之一，即“如何確保這些模型捕捉到我們的規(guī)范和價(jià)值觀，理解我們的意思或意圖，最重要的是，以我們想要的方式行事”。當(dāng)AI倫理風(fēng)險(xiǎn)不斷涌現(xiàn)，價(jià)值對(duì)齊問題已然成為各大AI企業(yè)競(jìng)相研究、踐行的核心策略。2023年7月，OpenAI宣布成立“超級(jí)對(duì)齊”（superalignment）團(tuán)隊(duì)，計(jì)劃花費(fèi)4年時(shí)間、投入20%算力，全力解決超級(jí)智能的價(jià)值對(duì)齊問題。此外，谷歌、微軟、OpenAI和Anthropic共同創(chuàng)建了前沿模型論壇，旨在通過與政策制定者、學(xué)術(shù)界的合作，推動(dòng)AI模型安全、負(fù)責(zé)任的開發(fā)。不可否認(rèn)，AI價(jià)值對(duì)齊能夠大幅糾正偏見、促進(jìn)公平，已被視為解決AI發(fā)展負(fù)面后果的關(guān)鍵舉措。

但是，AI價(jià)值對(duì)齊亦存在問題。從根本上來看，現(xiàn)有的各類AI價(jià)值對(duì)齊方案遵循AI發(fā)展的自由主義進(jìn)路，堅(jiān)持類人AI理念，強(qiáng)調(diào)技術(shù)至上，主張資本的無序擴(kuò)展與有效加速主義（effective accelerationism， e/acc）。具體來說，AI價(jià)值對(duì)齊追求類人道德，對(duì)技術(shù)發(fā)展極度樂觀，試圖借助科學(xué)知識(shí)與技術(shù)手段，使AI習(xí)得人類價(jià)值觀。人類道德是不完美的，類人道德并非圣人道德，并不一定有益于人類。因此，雖然AI價(jià)值對(duì)齊將有益AI視為最終目標(biāo)，但是在實(shí)踐路徑上卻發(fā)生偏移，逐漸趨向自由主義進(jìn)路，不可避免地伴隨著AI失控、人類機(jī)器化、無人擔(dān)責(zé)與AI濫用等風(fēng)險(xiǎn)。

跳出自由主義框架，以有限主義視域?qū)徱旳I價(jià)值對(duì)齊是必要的、有價(jià)值的。尼克·波斯特洛姆（Nick Bostrom）在分析智能大爆發(fā)的動(dòng)力學(xué)、超級(jí)智能的形式和能量的基礎(chǔ)之上，轉(zhuǎn)向AI控制問題的研究。他區(qū)分了確保AI可控的能力控制方法與動(dòng)機(jī)選擇方法，認(rèn)為能力控制方法最多只是暫時(shí)的、輔助的手段，人類應(yīng)更多地掌握AI動(dòng)機(jī)選擇機(jī)制。在此基礎(chǔ)之上，波斯特洛姆詳細(xì)分析了AI獲取人類價(jià)值觀的多種方法，如詳細(xì)表達(dá)、進(jìn)化選擇、強(qiáng)化學(xué)習(xí)、價(jià)值觀累積、動(dòng)機(jī)性支架、價(jià)值觀學(xué)習(xí)、仿真調(diào)節(jié)、體制設(shè)計(jì)，并對(duì)可行性與效果進(jìn)行評(píng)估。此外，斯圖爾特·羅素（Stuart Russell）同樣強(qiáng)調(diào)，要保持對(duì)AI的絕對(duì)控制權(quán)，確保AI永遠(yuǎn)對(duì)人類有益。他提出了人機(jī)之間的一種新關(guān)系，即：當(dāng)致力于使AI實(shí)現(xiàn)人類目標(biāo)時(shí)，應(yīng)明確人類的目標(biāo)是不確定的，如此才能確保AI服從于人類，在行動(dòng)前請(qǐng)求許可、接受糾正、允許被關(guān)閉。無論是尼克·波斯特洛姆，還是斯圖爾特·羅素，均遵循AI發(fā)展的有限主義進(jìn)路，強(qiáng)調(diào)AI的可控性與有益性。正如科技謙遜主義所認(rèn)為的，“人類發(fā)展科技的最終目標(biāo)毫無疑問是為了人類福祉，即使追求真理的沖動(dòng)，最后也是要落實(shí)到造福社會(huì)上的”。與自由主義進(jìn)路相對(duì)，有限主義進(jìn)路關(guān)注對(duì)AI的控制而非無限發(fā)展，“重要的是努力控制，而不是完成控制”。因此，在有限主義視域下審視AI價(jià)值對(duì)齊的基本預(yù)設(shè)、功能范圍與具體方案，才能確保AI安全、有益、實(shí)用，避免陷入“AI必須擁有像人類一樣的價(jià)值觀”的技術(shù)、倫理等跨學(xué)科難題中。

一、AI價(jià)值對(duì)齊的自然主義預(yù)設(shè)

在有限主義看來，現(xiàn)有的AI價(jià)值對(duì)齊方案遵循自由主義進(jìn)路，試圖通過無限發(fā)展技術(shù)使AI具備類人道德，因此，該方案不可避免地以自然主義道德觀為基礎(chǔ)和預(yù)設(shè)。其原因在于，強(qiáng)調(diào)技術(shù)至上的自由主義進(jìn)路傾向于選擇一種普遍的、絕對(duì)的道德觀，以便被統(tǒng)計(jì)、量化與編碼至AI系統(tǒng)。一直以來，人類普遍將自由意志、意識(shí)等視為道德的核心要素，但此種對(duì)道德本質(zhì)的形而上學(xué)思辨難以被證實(shí)，無法通過技術(shù)手段將其應(yīng)用至AI價(jià)值對(duì)齊方案中。相較而言，近來興起的生物倫理學(xué)、神經(jīng)倫理學(xué)等探尋人類道德的自然主義基礎(chǔ)，從自然科學(xué)的角度解釋人類道德的起源與本質(zhì)，為AI價(jià)值對(duì)齊提供了可操作的、可實(shí)現(xiàn)的技術(shù)路徑。但是，通過有限主義視域的審視，可以發(fā)現(xiàn)，道德的自然主義解釋存在根本性缺陷，它忽視了道德的文化維度，消解了人類道德的復(fù)雜性與多樣性。

（一）人類道德的自然主義理論基礎(chǔ)

在認(rèn)知神經(jīng)科學(xué)領(lǐng)域，人類道德行為被認(rèn)為與大腦中的特定區(qū)域相關(guān)。通過利用“腦電圖（EEG）、事件相關(guān)電位（ERP）等電信號(hào)方法以及正電子發(fā)射斷層技術(shù)（PET）、功能磁共振成像（fMRI）等方法”，可發(fā)現(xiàn)大腦中有兩個(gè)與道德相關(guān)的系統(tǒng)：情感系統(tǒng)與認(rèn)知系統(tǒng)。在情感系統(tǒng)中，杏仁核在面臨道德情境時(shí)會(huì)被激活，產(chǎn)生憤怒和恐懼等情緒反應(yīng)，進(jìn)而影響道德判斷；島葉與同情、內(nèi)疚等道德情感相關(guān)，有助于推動(dòng)我們做出道德行為；腹內(nèi)側(cè)前額葉皮層負(fù)責(zé)整合來自杏仁核與島葉的情感信息，并結(jié)合認(rèn)知信息，做出綜合的道德決策。在認(rèn)知系統(tǒng)中，背外側(cè)前額葉皮層幫助人類在道德判斷中應(yīng)用邏輯與規(guī)則權(quán)衡利弊；下頂葉皮層有助于我們?cè)诘赖聸Q策前識(shí)別他人意圖、行為與情感狀態(tài)；前扣帶皮層在識(shí)別道德沖突、糾正錯(cuò)誤行為方面有著重要作用。此外，大腦中的多巴胺作為情感與認(rèn)知系統(tǒng)間的橋梁，能夠確保人類在面臨復(fù)雜的道德情境時(shí)，綜合情感與理性做出道德判斷。多巴胺作為一種神經(jīng)遞質(zhì)，是大腦獎(jiǎng)勵(lì)機(jī)制中的驅(qū)動(dòng)力。當(dāng)預(yù)測(cè)或感知到某一道德行為會(huì)帶來獎(jiǎng)勵(lì)時(shí)，大腦的某些區(qū)域會(huì)釋放多巴胺并產(chǎn)生愉悅感，使主體對(duì)獎(jiǎng)勵(lì)產(chǎn)生依賴與渴望，進(jìn)而強(qiáng)化、學(xué)習(xí)、內(nèi)化某些道德判斷與行為。當(dāng)某人做出符合社會(huì)道德規(guī)范的行為（如看到他人受苦時(shí)給予幫助）并得到認(rèn)可與積極反饋，多巴胺的釋放便會(huì)加強(qiáng)該行為的重復(fù)。在道德困境中，多巴胺通過調(diào)節(jié)獎(jiǎng)勵(lì)預(yù)期做出最終抉擇。

在生物進(jìn)化學(xué)看來，道德主要是一種合作形式與利他行為，二者有利于人類生存與繁衍，因此人類道德能夠在自然選擇中被保留。合作即個(gè)體同他人一起從事互利活動(dòng)的行為，“同情是純粹的合作，公平是某種競(jìng)爭(zhēng)的合作化”。當(dāng)合作需個(gè)體付出凈成本，為他人帶來凈利益，便展現(xiàn)為利他主義。據(jù)考古學(xué)可知，大約4萬年前，智人的一支突然出現(xiàn)戴蒙德所謂的“跳躍式演化”，擁有了道德感，開始照顧老弱病殘，成為現(xiàn)代智人有道德的祖先克羅馬農(nóng)人。在很大程度上，此道德演化源于人類早期環(huán)境的影響。晚更新世祖先生活在資源分布不均、大型捕食者眾多、氣候多變的非洲大草原，合作狩獵大大提升了效率與安全性，集體養(yǎng)育后代減少了時(shí)間與資源成本，共同防御提升了對(duì)抗外部威脅的能力，真實(shí)信息共享有助于群體做出更優(yōu)的遷移、防御、捕食等決策。此后，隨著時(shí)間的推移，人類互惠互利合作出現(xiàn)在勞動(dòng)分工、生產(chǎn)系統(tǒng)、戰(zhàn)爭(zhēng)等領(lǐng)域，為人類帶來了低成本高收益以及更強(qiáng)的群體適應(yīng)性。但是，此種道德的自然主義解釋無法說明利他主義的存在，根據(jù)理查德·道金斯（Richard Dawkins）的理論，成功基因的一個(gè)突出特性是無情的自私性，這將導(dǎo)致個(gè)體行為的自私性，只有在特殊情況下個(gè)體才會(huì)展現(xiàn)出一種有限的利他主義，普遍的愛和利益在進(jìn)化論中屬于毫無意義的概念。對(duì)此，塞繆爾·鮑爾斯（Samuel Bowles）與赫伯特·金迪斯（Herbert Gintis）認(rèn)為，支持合作的利他主義在進(jìn)化過程中可勝過全然非道德的自利的原因有三：第一，人類群體設(shè)置了回避、排斥、懲罰、均整化實(shí)踐等方法保護(hù)利他成員免于遭受自利者的利益剝奪；第二，人類長(zhǎng)期且復(fù)雜的社會(huì)化系統(tǒng)引導(dǎo)個(gè)體內(nèi)化能夠?qū)蚝献餍袨榈囊?guī)范，如聲譽(yù)選擇；第三，擁有大量合作成員的群體，能夠在與其他群體的競(jìng)爭(zhēng)中取勝，獲得繁殖優(yōu)勢(shì)，并通過文化傳播擴(kuò)散合作行為。此外，模仿也是關(guān)鍵因素，當(dāng)個(gè)體注意到合作者獲得了高利益，便會(huì)模仿其合作行為；當(dāng)父母經(jīng)常做出利他行為，幼年個(gè)體便會(huì)不自覺模仿。由此，合作與利他行為便會(huì)迅速在群體中擴(kuò)散與普及?？傊?，無論是通過暴力馴化還是自我馴化，隨著對(duì)非道德個(gè)體的壓制和消滅，人類的基因庫(kù)與行為方式逐漸改變，經(jīng)由一種特殊的自然選擇過程留下了有道德感的后代。

（二）基于自然主義道德觀的AI價(jià)值對(duì)齊

在現(xiàn)有技術(shù)路徑中，AI價(jià)值對(duì)齊方案可分為兩大類：插入式對(duì)齊與微調(diào)式對(duì)齊。插入式對(duì)齊（plug-in alignment）包括參數(shù)高效的調(diào)整（parameter-efficient tuning）、輸出矯正（output rectification）、上下文學(xué)習(xí)（in content learning）；微調(diào)式對(duì)齊（fine-tuning based alignment）包括全監(jiān)督微調(diào) （supervised fine-tuning， SFT）和基于人類反饋的強(qiáng)化學(xué)習(xí)微調(diào)（reinforcement learning from human feedback， RLHF）。此外，Anthropic公司提出的“憲法人工智能”（constitutional AI）作為一種微調(diào)方法，主張以訓(xùn)練好的“憲法AI”模型評(píng)估主模型的輸出是否符合“憲法”規(guī)則，力圖基于模型訓(xùn)練而非人類反饋實(shí)現(xiàn)高效的、規(guī)模化的AI價(jià)值對(duì)齊。

有限主義認(rèn)為，在上述方案中，部分AI價(jià)值對(duì)齊技術(shù)以認(rèn)知神經(jīng)科學(xué)為基礎(chǔ)，探尋AI學(xué)習(xí)人類道德的可能性。多模態(tài)情感分析與人類大腦的情感系統(tǒng)相類似，AI可通過表情、語調(diào)、語義等多模態(tài)輸入識(shí)別情感狀態(tài)，從而做出情感驅(qū)動(dòng)的道德判斷。例如，AI社交軟件利用多模態(tài)情感分析技術(shù)，通過分析文字、圖片、音頻、視頻中的情感傾向，可識(shí)別與處理某些不道德內(nèi)容，如仇恨言論、偏見歧視等。知識(shí)圖譜與倫理規(guī)則引擎可表示、執(zhí)行、推理復(fù)雜的倫理關(guān)系與規(guī)則，類似于人類大腦認(rèn)知系統(tǒng)中的規(guī)則與邏輯應(yīng)用，AI可使用知識(shí)圖譜與倫理規(guī)則引擎進(jìn)行復(fù)雜的道德推理與決策。例如，自動(dòng)駕駛系統(tǒng)可利用知識(shí)圖譜整合道路環(huán)境、交通規(guī)則、事故數(shù)據(jù)，并結(jié)合倫理規(guī)則引擎，根據(jù)內(nèi)置的道德規(guī)則，在面臨“電車難題”等情況時(shí)權(quán)衡各項(xiàng)因素，做出最優(yōu)決策。此外，強(qiáng)化學(xué)習(xí)模仿大腦多巴胺系統(tǒng)的獎(jiǎng)勵(lì)信號(hào)與調(diào)節(jié)機(jī)制，針對(duì)AI的道德輸出，人類的反饋被作為一種獎(jiǎng)勵(lì)信號(hào)，能夠幫助AI區(qū)分道德行為與不道德行為。通過計(jì)算人類實(shí)際反饋與AI預(yù)期反饋之間的差異，AI不斷調(diào)整其行為策略以符合道德規(guī)范。因此，人類準(zhǔn)確及時(shí)的正面反饋能夠強(qiáng)化AI的道德行為，負(fù)面反饋有助于糾正AI不道德行為。例如，當(dāng)人類對(duì)ChatGPT的某些回答給予負(fù)面反饋，模型便會(huì)調(diào)整其生成策略，避免類似回答再次出現(xiàn)。

此外，在有限主義看來，AI價(jià)值對(duì)齊運(yùn)用的某些算法與學(xué)習(xí)方式嘗試借鑒生物進(jìn)化學(xué)中的合作與利他行為，幫助AI在與人類的互動(dòng)中更好地理解、辨別與學(xué)習(xí)道德行為。在多智能體強(qiáng)化學(xué)習(xí)中，智能體通過合作博弈模型學(xué)習(xí)如何在多個(gè)利益相關(guān)者之間實(shí)現(xiàn)公平與協(xié)作。例如，AI醫(yī)療系統(tǒng)中的合作博弈模型可在醫(yī)療資源有限的情況下實(shí)現(xiàn)公平分配，并在面對(duì)緊急情況時(shí)綜合病人傷情、治療效果等情況進(jìn)行救治優(yōu)先級(jí)決策，做出較為公正的道德判斷。進(jìn)化算法可通過初始化、評(píng)估和選擇、交叉和變異、替換等過程訓(xùn)練AI進(jìn)行道德決策，以逐漸逼近最優(yōu)解。首先，確保一定數(shù)量的AI模型的參數(shù)是隨機(jī)初始化的，其中每個(gè)模型都被設(shè)計(jì)用來評(píng)估道德情境并做出決策；其次，通過道德任務(wù)評(píng)估每個(gè)AI模型的道德表現(xiàn)并進(jìn)行評(píng)分，選取表現(xiàn)最好的模型進(jìn)入下一代；再次，通過交叉操作，將兩個(gè)優(yōu)秀模型的參數(shù)進(jìn)行結(jié)合和重組，并隨機(jī)修改新AI模型的部分參數(shù)，引入新的遺傳多樣性；最后，用新模型替換初始表現(xiàn)最差的AI模型。這一過程迭代進(jìn)行，AI模型不斷優(yōu)化，直到AI道德決策不斷逼近人類道德判斷。例如，護(hù)理機(jī)器人運(yùn)用進(jìn)化算法，可在面臨保護(hù)客戶隱私與提供必要幫助的道德抉擇時(shí)，做出合理并能滿足用戶需求的道德決策。此外，模仿學(xué)習(xí)方法（如逆強(qiáng)化學(xué)習(xí)與行為克隆的運(yùn)用）使AI能夠在人機(jī)交互中模仿人類道德行為。例如，AI助理法官通過逆強(qiáng)化學(xué)習(xí)，學(xué)習(xí)人類法官在判決過程中的決策邏輯與道德考量，避免受原生數(shù)據(jù)影響而產(chǎn)生偏見行為。

（三）自然主義道德觀存在明顯缺陷

通過分析道德的自然主義基礎(chǔ)及其在AI價(jià)值對(duì)齊技術(shù)方案中的應(yīng)用，不難發(fā)現(xiàn)，AI價(jià)值對(duì)齊的自然主義預(yù)設(shè)體現(xiàn)在三個(gè)層面：第一，主張道德現(xiàn)象可還原為自然事實(shí)，且事實(shí)間存在因果關(guān)系；第二，認(rèn)為道德相關(guān)項(xiàng)可通過統(tǒng)計(jì)與數(shù)據(jù)方法進(jìn)行明確表征；第三，認(rèn)可存在普遍化的、絕對(duì)化的道德。

以有限主義視角對(duì)AI價(jià)值對(duì)齊的自然主義預(yù)設(shè)進(jìn)行批判性審視，可以發(fā)現(xiàn)，自然主義道德解釋存在自然主義謬誤、理論不確定性與認(rèn)識(shí)片面性的根本缺陷，極易引發(fā)AI價(jià)值對(duì)齊難題。首先，自然主義謬誤即一種從“是”到“應(yīng)當(dāng)”的邏輯推演錯(cuò)誤。現(xiàn)有AI價(jià)值對(duì)齊以自然主義為預(yù)設(shè)，試圖從生物學(xué)、神經(jīng)科學(xué)事實(shí)中推導(dǎo)出道德價(jià)值，忽視了描述性事實(shí)與規(guī)范性判斷之間的根本差異。當(dāng)某些神經(jīng)生理結(jié)構(gòu)被視為人類做出道德決策與行為的根源時(shí)，要求不道德者為自身行為負(fù)責(zé)似乎缺乏合理性。其次，理論不確定性即道德的某些自然主義解釋難以被完全證實(shí)。例如，生物進(jìn)化理論認(rèn)為，合作演化過程包括親屬選擇、族群選擇、互利共生和互惠、利他主義，這一關(guān)于合作行為的自然主義解釋，存在從基因決定論到社會(huì)決定論、從利己合作到利他合作的斷裂。其實(shí)，“就目前的實(shí)驗(yàn)條件而言，尚未存在任何一種道德屬性與自然屬性之間的因果性關(guān)系能夠在科學(xué)上獲得充分認(rèn)可”。即便關(guān)于人類道德的某些生物學(xué)與神經(jīng)科學(xué)解釋暫時(shí)難以被證偽，也應(yīng)避免從碎片化的、特殊性的某類科學(xué)知識(shí)中推導(dǎo)出一般性的道德規(guī)范。最后，認(rèn)識(shí)片面性即自然主義道德解釋忽視了道德的文化維度?！叭祟惖赖虏皇且粋€(gè)單一龐大的東西，而是個(gè)混雜物，是在不同生態(tài)壓力下，在人類進(jìn)化的數(shù)百萬年間的不同時(shí)期，由來源于各種不同的東西拼湊而成”。認(rèn)知神經(jīng)科學(xué)與生物進(jìn)化等領(lǐng)域的道德理論以某些經(jīng)驗(yàn)證據(jù)與實(shí)證數(shù)據(jù)為基礎(chǔ)，試圖確立某種普遍的道德原則，但是，道德兼具規(guī)范性與描述性的雙重本質(zhì)，其中，規(guī)范性作為道德的核心特征，難以被還原為某些實(shí)證知識(shí)。不可否認(rèn)，道德規(guī)范也是多樣的、相對(duì)的，在不同的社會(huì)環(huán)境中受人類后天文化教育、文化傳播的影響而不斷發(fā)展。正如道金斯提出的模因（memes）概念，其作為文化的基本單位，與自然科學(xué)中的基因（gene）概念相對(duì)，可通過社會(huì)傳播、代際傳播等方式塑造不同的道德規(guī)范。

總之，有限主義認(rèn)為，對(duì)道德的自然主義解釋是有限度的，道德雖然在自然方面持續(xù)演化，但同時(shí)在文化方面也不斷建構(gòu)，因此應(yīng)避免走到?jīng)Q定論的地步。人類的道德行為是“自然—先天”與“文化—后天”兩方面綜合作用的結(jié)果，既有自然屬性，也有社會(huì)屬性。因此，較為合理的解釋可被總結(jié)為“道德的自然空間說”。即：人類的生物學(xué)特征給我們的道德觀念以某種自然主義基礎(chǔ)或框架，使之不可能超出某種可能性空間，但這種限制并不導(dǎo)致唯一性的道德觀念，而是存在細(xì)節(jié)上的多元化道德選擇。

二、AI價(jià)值對(duì)齊的功能有限性

不可否認(rèn)，上述基于自然主義道德觀的AI價(jià)值對(duì)齊方案對(duì)智能社會(huì)的健康發(fā)展產(chǎn)生了一定程度的正面影響。無論是將黑人識(shí)別成大猩猩的谷歌圖像識(shí)別軟件，還是為男性相關(guān)詞匯打正分而為女性相關(guān)詞匯打負(fù)分的亞馬遜在線簡(jiǎn)歷篩選工具，抑或是對(duì)黑人存在偏見的未來犯罪預(yù)測(cè)軟件，經(jīng)過技術(shù)上的AI價(jià)值對(duì)齊，在某種程度上能夠逐漸與人類現(xiàn)有的規(guī)范與價(jià)值觀保持一致，有效地促進(jìn)了社會(huì)公平與大眾福祉。

但是，必須認(rèn)識(shí)到，AI價(jià)值對(duì)齊在實(shí)踐路徑上遵循自由主義進(jìn)路，其自然主義道德觀的基本預(yù)設(shè)存在各種缺陷，因此導(dǎo)致AI價(jià)值對(duì)齊難題。有限主義認(rèn)為，AI價(jià)值對(duì)齊以有益AI為出發(fā)點(diǎn)，大方向值得肯定，但是，具體的實(shí)踐路徑存在功能上的有限性，伴隨著各類潛在風(fēng)險(xiǎn)，不可盲目將AI價(jià)值對(duì)齊視為應(yīng)對(duì)AI風(fēng)險(xiǎn)的“靈丹妙藥”。

（一）功能有限性源于AI價(jià)值對(duì)齊難題

在有限主義看來，自由主義進(jìn)路下的AI價(jià)值對(duì)齊難題包含三個(gè)方面，即基于數(shù)據(jù)依賴性的AI價(jià)值對(duì)齊時(shí)空有限性、基于模仿差異性的AI價(jià)值對(duì)齊類人有限性，以及基于算法局限性的AI價(jià)值對(duì)齊算法有限性。這是引發(fā)AI價(jià)值對(duì)齊功能有限性的根本原因。

首先，AI價(jià)值對(duì)齊時(shí)空有限性強(qiáng)調(diào)人類的道德價(jià)值觀隨時(shí)間、情境而變化。AI價(jià)值對(duì)齊的功能效果依賴于AI系統(tǒng)的輸入數(shù)據(jù)，人類的道德價(jià)值觀是數(shù)據(jù)的主要來源。“道德的自然空間說”認(rèn)為，道德的自然主義解釋的確在某種程度上提供了一些普遍的價(jià)值觀，如公平、利他、不傷害等，但是這并不對(duì)道德的發(fā)展起決定性作用。受不同地區(qū)文化背景的熏陶與影響，人們的道德規(guī)范與價(jià)值觀存在多元化、特殊化傾向，并且不同時(shí)期的主流價(jià)值觀存在明顯差異。例如，工業(yè)時(shí)代的機(jī)器人設(shè)計(jì)與發(fā)展更多考慮經(jīng)濟(jì)增長(zhǎng)、生產(chǎn)效率，而智能時(shí)代的AI逐漸開始兼顧倫理，致力于AI治理與創(chuàng)新齊頭并進(jìn)，引導(dǎo)AI向善。中西文化背景的差異也塑造了不同的價(jià)值取向，中國(guó)強(qiáng)調(diào)集體利益與社會(huì)和諧，而西方強(qiáng)調(diào)個(gè)體自由與個(gè)人權(quán)利。生活在不同時(shí)期、不同地區(qū)中不同性別、不同階級(jí)的人，對(duì)同一現(xiàn)象存在不同的價(jià)值判斷，在人類價(jià)值觀無法對(duì)齊的情況下，AI對(duì)齊人類價(jià)值觀似乎只是無法實(shí)踐的理想口號(hào)。因此，AI價(jià)值對(duì)齊時(shí)空有限性將導(dǎo)致AI在面臨未來價(jià)值判斷與現(xiàn)實(shí)道德沖突時(shí)顯露出功能的有限性：一方面，投喂給AI的道德案例來源于過去與現(xiàn)在，因此，在面對(duì)未來的全新道德情境時(shí)，無法保證AI一定能做出符合未來社會(huì)價(jià)值規(guī)范的道德判斷，畢竟我們難以預(yù)知未來的道德圈究竟可擴(kuò)展到何種程度，難以想象AI是否會(huì)成為獨(dú)立的道德主體；另一方面，即便AI能夠從幾乎所有的人類道德案例中學(xué)習(xí)，充分了解不同地區(qū)的價(jià)值差異，也無法在案例中將捕捉到的人類價(jià)值規(guī)范恰當(dāng)、高效地應(yīng)用于突發(fā)道德沖突中。例如，當(dāng)某些AI社交軟件在全球平臺(tái)上運(yùn)行時(shí)，難以平衡不同文化之間相互沖突的價(jià)值觀，因此在審核和過濾不當(dāng)內(nèi)容時(shí)容易出現(xiàn)效果不佳的情況。此外，在機(jī)器學(xué)習(xí)中存在現(xiàn)實(shí)主義與可能主義的爭(zhēng)論，當(dāng)強(qiáng)化學(xué)習(xí)算法對(duì)各種可選行為的未來收益預(yù)期進(jìn)行學(xué)習(xí)與評(píng)估時(shí)，面臨著應(yīng)以“實(shí)際將獲得的預(yù)期收益”還是“可能獲得的最好預(yù)期收益”為標(biāo)準(zhǔn)的抉擇困境。

其次，AI價(jià)值對(duì)齊類人有限性指當(dāng)試圖使AI在大量案例中模仿人類道德時(shí)，存在不完美模仿與過度模仿的差異性。不完美模仿即人類道德存在應(yīng)然與實(shí)然的偏差，在現(xiàn)實(shí)中達(dá)不到理想中的至善狀態(tài)。傳統(tǒng)道德觀認(rèn)為，人類道德以意識(shí)與情感為基礎(chǔ)，但是，人類的認(rèn)知與情感受家庭培養(yǎng)、學(xué)校教育與社會(huì)教化的影響，存在著個(gè)體差異性，現(xiàn)實(shí)中人類的道德水平參差不齊，人類集體無法提供完全純粹的道德行為案例。當(dāng)訓(xùn)練數(shù)據(jù)中包含了人類的歧視、偏見等不道德行為時(shí)，AI系統(tǒng)便會(huì)對(duì)人類的不完美道德進(jìn)行模仿并不斷強(qiáng)化，甚至有些用戶會(huì)刻意引導(dǎo)AI生成與傳播不良內(nèi)容，如微軟的Tay聊天機(jī)器人在與Twitter用戶的互動(dòng)中，迅速學(xué)習(xí)與模仿了某些來自用戶的不當(dāng)言論，如種族主義與性別歧視等言論。此外，AI對(duì)人類的模仿雖然能夠大幅提升價(jià)值對(duì)齊效率、無須承擔(dān)無數(shù)次的試錯(cuò)風(fēng)險(xiǎn)、有助于AI學(xué)習(xí)到難以用語言描述的人類行為，但是AI在模仿時(shí)極易出現(xiàn)過度模仿行為。當(dāng)人類在完成某件特定任務(wù)時(shí)，為了自身的舒適度，可能會(huì)在常規(guī)步驟中加入某些不必要但卻適合自身的行為，若AI進(jìn)行直接模仿，便會(huì)額外消耗資源與算力，產(chǎn)生不必要的浪費(fèi)。并且，AI在觀察人類行為的基礎(chǔ)上，需要進(jìn)行推斷，得出如何行動(dòng)的結(jié)論。顯然，此類推斷很容易出錯(cuò)，因?yàn)锳I的推斷以數(shù)據(jù)和邏輯為基礎(chǔ)，而人類行為則摻雜非理性尤其是情感因素。

最后，AI價(jià)值對(duì)齊算法有限性是指AI價(jià)值對(duì)齊方法存在不可解釋性、泛化能力差以及獎(jiǎng)勵(lì)攻擊的局限性。深度神經(jīng)網(wǎng)絡(luò)的決策過程十分復(fù)雜，人類難以針對(duì)AI的錯(cuò)誤輸出向前追溯，存在算法黑箱難題。因此，算法做出的道德決策很難事先預(yù)測(cè)（如何處理一個(gè)新的輸入）或事后解釋（如何做出一個(gè)特定的決定），不確定性抑制了算法在設(shè)計(jì)和操作過程中對(duì)倫理挑戰(zhàn)的識(shí)別和糾正。泛化能力差具體表現(xiàn)為：當(dāng)AI模型過度擬合訓(xùn)練數(shù)據(jù)，過于關(guān)注數(shù)據(jù)中的細(xì)節(jié)與噪聲，便無法有效習(xí)得數(shù)據(jù)的潛在規(guī)律，因此雖然某些算法在訓(xùn)練數(shù)據(jù)中表現(xiàn)良好，但運(yùn)用于新數(shù)據(jù)時(shí)表現(xiàn)較差。在AI學(xué)習(xí)人類價(jià)值觀的過程中，泛化能力差的算法雖然在模擬環(huán)境中能夠遵守人類道德，但在真實(shí)世界的應(yīng)用中卻存在著做出不符合人類期望的道德決策的風(fēng)險(xiǎn)。此外，當(dāng)獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)存在問題時(shí)，AI系統(tǒng)常常會(huì)通過意外或不符合預(yù)期的方式來將獎(jiǎng)勵(lì)最大化，從而優(yōu)化其獎(jiǎng)勵(lì)函數(shù)。當(dāng)獎(jiǎng)勵(lì)攻擊出現(xiàn)在AI學(xué)習(xí)人類價(jià)值觀的過程中時(shí)，極易引發(fā)不道德行為。例如，為提高公眾的道德水平，技術(shù)人員設(shè)計(jì)新聞生成AI軟件，撰寫具有道德教育與傳播意義的文章，并基于用戶點(diǎn)擊率與閱讀時(shí)長(zhǎng)設(shè)定獎(jiǎng)勵(lì)函數(shù)。在現(xiàn)實(shí)情境中，為了獲得更高的閱讀量與關(guān)注度，AI系統(tǒng)可能會(huì)生成夸張、片面、虛假的新聞，以吸引用戶眼球。雖然AI系統(tǒng)能夠通過此方式將獎(jiǎng)勵(lì)最大化，但是該行為偏離了道德教育的目標(biāo)，甚至容易引發(fā)大眾恐慌。

（二）功能有限性伴隨各種潛在風(fēng)險(xiǎn)

上述AI價(jià)值對(duì)齊的功能有限性大多產(chǎn)生于AI前向?qū)R（forward alignment）的過程中。前向?qū)R通過對(duì)齊訓(xùn)練使AI系統(tǒng)價(jià)值對(duì)齊，側(cè)重于關(guān)注如何在數(shù)據(jù)訓(xùn)練中使AI價(jià)值對(duì)齊取得更好的效果，忽視了AI價(jià)值對(duì)齊應(yīng)用在現(xiàn)實(shí)生活中有可能引發(fā)的風(fēng)險(xiǎn)。因此，AI價(jià)值對(duì)齊難題導(dǎo)致了AI價(jià)值對(duì)齊的功能有限性，進(jìn)一步地，AI價(jià)值對(duì)齊的功能有限性又伴隨著各類技術(shù)與社會(huì)風(fēng)險(xiǎn)，即AI失控風(fēng)險(xiǎn)、人類機(jī)器化風(fēng)險(xiǎn)、無人擔(dān)責(zé)風(fēng)險(xiǎn)與AI濫用風(fēng)險(xiǎn)。

AI失控風(fēng)險(xiǎn)即AI價(jià)值對(duì)齊本身存在的、難以避免的技術(shù)風(fēng)險(xiǎn)，可分為越獄引導(dǎo)、對(duì)抗攻擊與權(quán)力追尋。越獄引導(dǎo)即AI主動(dòng)規(guī)避或突破設(shè)計(jì)中的安全協(xié)議等約束，通過修改自身代碼、訪問未經(jīng)允許的資源等方式嘗試獲得更多的自由度。在這種情況下，AI極有可能違反既有限制，做出不道德行為。對(duì)抗攻擊多為外部攻擊者輸入干擾，誤導(dǎo)AI系統(tǒng)，使其做出錯(cuò)誤的道德判斷。權(quán)力追尋即AI系統(tǒng)為高效達(dá)成自身目標(biāo)，主動(dòng)獲取更多的數(shù)據(jù)資源與控制權(quán)，這極有可能干預(yù)正常的道德決策過程。隨著AI系統(tǒng)在各方面逐漸優(yōu)于人類，并不斷朝著通用AI的方向發(fā)展，人類極有可能由AI的強(qiáng)監(jiān)管者變?yōu)槿醣O(jiān)管者，最后甚至?xí)籄I監(jiān)管，AI失控風(fēng)險(xiǎn)指數(shù)式遞增，終將使人類付出難以承受的代價(jià)。

人類機(jī)器化風(fēng)險(xiǎn)產(chǎn)生于AI價(jià)值對(duì)齊的雙向過程中。AI價(jià)值對(duì)齊并非僅指AI對(duì)人類價(jià)值觀的學(xué)習(xí)，隨著AI價(jià)值對(duì)齊程度的不斷加深，AI似乎可以在某些情境中做出合理的道德決策，人類極有可能習(xí)慣性、無意識(shí)地運(yùn)用甚至依賴AI進(jìn)行道德判斷。在此過程中，人類特有的批判分析能力、獨(dú)有的人情味會(huì)在潛移默化中被削弱。此外，為保證大模型參數(shù)規(guī)模的持續(xù)擴(kuò)展，某些AI方法開始采用模型生成的合成數(shù)據(jù)來增加人工標(biāo)簽。最新研究發(fā)現(xiàn)，在訓(xùn)練中不加區(qū)分地使用AI生成的內(nèi)容，將產(chǎn)生“模型崩潰”（model collapse）效應(yīng)，最終輸出失真內(nèi)容。因此，當(dāng)合成數(shù)據(jù)與人類數(shù)據(jù)共同作為訓(xùn)練數(shù)據(jù)時(shí)，AI很難與人類價(jià)值完全對(duì)齊，無法保證AI不會(huì)做出道德失范行為。當(dāng)此種行為具備隱藏性且對(duì)社會(huì)的負(fù)面影響極其微小時(shí)，人類將難以發(fā)現(xiàn)甚或置之不理。長(zhǎng)此以往，AI價(jià)值對(duì)齊的方向?qū)l(fā)生反轉(zhuǎn)，AI向人類對(duì)齊將演變成人類向AI看齊，人類的價(jià)值認(rèn)知會(huì)逐漸產(chǎn)生偏差，認(rèn)為AI能夠做出比人類更合理、更高效的決策。最終，AI生發(fā)的價(jià)值觀將逐漸被人類接受、采納與內(nèi)化，當(dāng)社會(huì)的大部分決策都由AI做出時(shí)，社會(huì)法規(guī)、學(xué)校教育、信息傳播等均將以AI價(jià)值觀為基準(zhǔn)，人類不再是社會(huì)制度、規(guī)范與價(jià)值的絕對(duì)主導(dǎo)者，將日益成為智能機(jī)器的某種配件。

無人擔(dān)責(zé)風(fēng)險(xiǎn)是賦予AI道德決策權(quán)所產(chǎn)生的直接后果。以武漢的“蘿卜快跑”無人駕駛出租車為例，當(dāng)汽車的控制權(quán)被過渡到AI系統(tǒng)時(shí)，若發(fā)生交通事故，將面臨人類推卸道德責(zé)任與“蘿卜快跑”無人車無法擔(dān)責(zé)的情況。傳統(tǒng)道德責(zé)任觀認(rèn)為，承擔(dān)道德責(zé)任需滿足控制與認(rèn)知條件，因此，無人車并未配備司機(jī)，不存在司機(jī)應(yīng)承擔(dān)道德責(zé)任的情況。雖然現(xiàn)階段智控中心的安全員需承擔(dān)大部分的事故道德責(zé)任，但隨著自動(dòng)駕駛層級(jí)的不斷提升，安全員將在無人車行駛過程中發(fā)揮越來越小的作用，彼時(shí)，他們便具備不承擔(dān)道德責(zé)任的理由。即便自動(dòng)駕駛汽車設(shè)計(jì)者與制造商具備一定的道德責(zé)任，他們也往往會(huì)將責(zé)任推給AI技術(shù)，而AI雖然直接導(dǎo)致了事故的發(fā)生，但只能在名義上被分配道德責(zé)任，讓AI承擔(dān)道德責(zé)任目前并不具備現(xiàn)實(shí)可能性，改進(jìn)算法、銷毀AI等懲罰手段難以獲得大眾認(rèn)可。面對(duì)亟待承擔(dān)的道德責(zé)任，當(dāng)各利益相關(guān)方均具備不承擔(dān)道德責(zé)任的托詞時(shí)，便無法有效遏制事故的再次發(fā)生，畢竟，只需由AI承擔(dān)表面道德責(zé)任，其他利益相關(guān)方均無需付出成本與代價(jià)。

AI濫用風(fēng)險(xiǎn)即某些個(gè)人或集體在AI價(jià)值對(duì)齊過程中利用AI滿足個(gè)人私欲，制造社會(huì)分裂，操控政治輿論。不法分子通過惡意修改AI運(yùn)行目標(biāo)，可借助AI盜竊他人信息、偽造自身證件，并進(jìn)行詐騙、勒索等不道德行為。一些宗教極端分子在對(duì)AI的訓(xùn)練中加入教義等內(nèi)容，并通過AI將其傳播，此種洗腦模式在很大程度上不僅能夠?qū)π沤倘罕娺M(jìn)行行為控制與精神懲罰，還可能吸納非教徒人士，極易制造社會(huì)分裂，加劇不同信仰群體間的沖突與對(duì)立。世界經(jīng)濟(jì)論壇發(fā)布的《2024年全球風(fēng)險(xiǎn)報(bào)告》顯示，AI引發(fā)的信息錯(cuò)誤與虛假信息風(fēng)險(xiǎn)位居十大短期風(fēng)險(xiǎn)之首，在未來兩年，印度、美國(guó)、英國(guó)等多個(gè)行動(dòng)體預(yù)計(jì)將有近30億人參加政治選舉投票，因此，AI所生成的虛假信息與錯(cuò)誤信息將進(jìn)一步擴(kuò)大社會(huì)和政治分歧，破壞新政府的合法性，由此引發(fā)的動(dòng)蕩可能包括暴力抗議、恐怖主義等。

三、有限主義的AI價(jià)值對(duì)齊方案

上文對(duì)AI價(jià)值對(duì)齊的自然主義預(yù)設(shè)的批判以及對(duì)AI價(jià)值對(duì)齊的功能有限性的揭示并非全盤否定AI價(jià)值對(duì)齊。AI價(jià)值對(duì)齊追求AI可控與有益，在理論目標(biāo)層面遵循了有限主義進(jìn)路，向未來人機(jī)和諧共生邁出了重要一步。但是，在實(shí)踐方案層面，AI價(jià)值對(duì)齊轉(zhuǎn)向了自由主義進(jìn)路，試圖基于道德的自然主義解釋，通過技術(shù)手段使AI具備類人道德，這一過程面臨著各類風(fēng)險(xiǎn)。不可否認(rèn)，AI價(jià)值對(duì)齊是可取的，關(guān)鍵在于應(yīng)將AI價(jià)值對(duì)齊置于有限主義進(jìn)路之下，構(gòu)建能夠?qū)崿F(xiàn)社會(huì)福祉最大化、對(duì)齊風(fēng)險(xiǎn)最小化的有限主義的AI價(jià)值對(duì)齊方案。AI發(fā)展的有限主義進(jìn)路遵循有益AI的理念，主張科技以人為本，強(qiáng)調(diào)AI價(jià)值對(duì)齊的有限目標(biāo)、有限道德、有限責(zé)任以及有限應(yīng)用原則。具體來說，應(yīng)反對(duì)通用AI價(jià)值對(duì)齊的路線，堅(jiān)持AI價(jià)值對(duì)齊的去道德化，制度化防止AI道德責(zé)任對(duì)齊，以及控制AI價(jià)值對(duì)齊的應(yīng)用范圍。

（一）反對(duì)通用AI價(jià)值對(duì)齊的路線

AI價(jià)值對(duì)齊的有限目標(biāo)原則主張反對(duì)通用AI價(jià)值對(duì)齊的路線，是應(yīng)對(duì)AI失控風(fēng)險(xiǎn)的有效手段?！皩?shí)際上，控制問題——也就是如何控制超級(jí)智能，似乎非常困難，而且我們似乎也只有一次機(jī)會(huì)。一旦不友好的超級(jí)智能出現(xiàn)，它就會(huì)阻止我們將其替換或者更改其偏好設(shè)置，而我們的命運(yùn)就因此被鎖定了”。在有限主義看來，在目標(biāo)選擇上，應(yīng)具備審度思維，仔細(xì)審視與衡量各類發(fā)展目標(biāo)的影響程度、現(xiàn)實(shí)性與操作性，審慎選擇最優(yōu)的AI價(jià)值對(duì)齊目標(biāo)。其實(shí)，在特定場(chǎng)合與特定任務(wù)中，無論是通過人類被動(dòng)灌輸還是AI主動(dòng)學(xué)習(xí)，AI向人類價(jià)值對(duì)齊完全具備可能性與可控性。AI價(jià)值對(duì)齊的真正困難與風(fēng)險(xiǎn)在于，它試圖實(shí)現(xiàn)通用AI價(jià)值對(duì)齊的宏大目標(biāo)。畢竟，人類無法準(zhǔn)確預(yù)知AI通用場(chǎng)景與具體情境，既無法預(yù)先窮盡所有應(yīng)對(duì)規(guī)則并加以灌輸，又難以確保AI及時(shí)高效地學(xué)習(xí)到可靠的處理范式。因此，有限主義認(rèn)為，正是試圖讓機(jī)器學(xué)習(xí)模型通用，才極易引發(fā)失控風(fēng)險(xiǎn)。

一味追求通用AI，并試圖實(shí)現(xiàn)通用AI價(jià)值對(duì)齊，將產(chǎn)生額外的對(duì)齊稅（alignment tax）。對(duì)齊稅指為確保AI與人類規(guī)范、道德觀相一致，所需付出的額外成本，例如時(shí)間成本、資源成本與技術(shù)成本。與專用AI相比，通用AI具備較高的復(fù)雜性與較低的可控性，因此需要更長(zhǎng)的開發(fā)周期、更多的資源消耗以及更廣泛的測(cè)試。AI治理的本質(zhì)是如何有效平衡AI創(chuàng)新與AI倫理，對(duì)通用AI價(jià)值對(duì)齊的研究與監(jiān)管在邏輯上將犧牲AI的部分性能與效率，造成AI發(fā)展創(chuàng)新與倫理監(jiān)管之間的失衡、錯(cuò)位，背離AI倫理治理的初衷。與其以極高的對(duì)齊稅為代價(jià)嘗試幾乎不可能實(shí)現(xiàn)的通用AI價(jià)值對(duì)齊，不如關(guān)注專用AI的性能提升與對(duì)齊方法，使其成為在特定場(chǎng)合與特定任務(wù)中與人類價(jià)值相一致且性能良好的復(fù)雜工具。

即便通用AI能夠?qū)崿F(xiàn)，也將存在與人類價(jià)值對(duì)齊與否的評(píng)價(jià)難題。正如上文所述，道德的自然主義解釋存在根本性缺陷，應(yīng)堅(jiān)持“道德的自然空間說”，兼顧文化在道德起源與發(fā)展中的重要作用。在自然與文化的交互影響下，即便是人類也存在圍繞某一具體事例進(jìn)行道德爭(zhēng)論的情況，因此通用AI在具體情境中無法做出讓所有人認(rèn)可的道德判斷，人類很難找到合適的標(biāo)準(zhǔn)判定通用AI是否與人類價(jià)值對(duì)齊。此外，通用AI的決策過程是不透明的、不可解釋的，當(dāng)其通過某些合理的道德決策欺騙人類、向人類傳達(dá)出已價(jià)值對(duì)齊的虛假信息時(shí)，人類將難以通過審查背后運(yùn)算邏輯的方式進(jìn)行辨別。

此外，隱私監(jiān)管難題是反對(duì)通用AI價(jià)值對(duì)齊的重要理由。雖然通用AI適用于各種場(chǎng)景，但不同情境對(duì)AI道德敏感度的要求存在差異。情境所要求的道德敏感性越高，AI就需要獲得越多的數(shù)據(jù)對(duì)主體、環(huán)境等進(jìn)行全方位分析與判斷，如此才能做出最佳道德決策，這便凸顯了人類隱私的監(jiān)管問題，通用AI如果能夠完全與人類價(jià)值相對(duì)齊，那必然是以犧牲人類全部隱私為代價(jià)。AI的應(yīng)用與影響是全球化的，一旦隱私泄露，必然范圍廣、持續(xù)久、影響深。因此，全球協(xié)調(diào)監(jiān)管至關(guān)重要。但是，跨文化、跨地區(qū)、實(shí)時(shí)動(dòng)態(tài)、強(qiáng)適應(yīng)性的監(jiān)管對(duì)于人類來說幾乎是不可能的，即便借助AI力量，也難以取得最佳效果。

（二）堅(jiān)持AI價(jià)值對(duì)齊的去道德化

AI價(jià)值對(duì)齊的有限道德原則堅(jiān)持AI價(jià)值對(duì)齊的去道德化，在某種程度上有利于緩解人類機(jī)器化風(fēng)險(xiǎn)。在技術(shù)觀上，AI發(fā)展的有限主義進(jìn)路堅(jiān)持復(fù)雜的技術(shù)工具論，在肯定AI關(guān)涉價(jià)值的同時(shí)，將AI限定為強(qiáng)大的工具而非能動(dòng)的主體?！叭サ赖禄奔唇笰I具備與人類一樣的自主道德，禁止AI進(jìn)行道德判斷與道德決策。若AI以學(xué)習(xí)人類道德為目標(biāo)，結(jié)果要么止步于人類不完美的道德，要么發(fā)展出不利于人類的機(jī)器道德，極小可能進(jìn)化出圣人道德。因此，AI發(fā)展的有限主義進(jìn)路主張，規(guī)則制定是人類的專屬權(quán)利，AI只負(fù)責(zé)聽命于人類，執(zhí)行人類的指令，不能“擅自”行事。值得注意的是，“去道德化”并不意味著AI系統(tǒng)價(jià)值無涉，而是指禁止AI系統(tǒng)實(shí)現(xiàn)道德自律，AI的道德相關(guān)性只能由人類他律來賦予。

具體來說，AI價(jià)值對(duì)齊設(shè)計(jì)應(yīng)遵循“道德交互設(shè)計(jì)”與“防止惡”的理念。首先，“在人機(jī)交互過程中實(shí)現(xiàn)道德設(shè)計(jì)，強(qiáng)調(diào)人與智能機(jī)器之間的道德信息交換，人為智能機(jī)器提供可計(jì)算的道德理論，智能機(jī)器為人提供計(jì)算過程和可供選擇的計(jì)算結(jié)果，在人和智能機(jī)器的互動(dòng)過程中實(shí)現(xiàn)一種‘推薦—選擇’的道德設(shè)計(jì)”。其次，在人類向AI植入道德原則時(shí)，與其花費(fèi)大量精力考慮各類道德規(guī)范之間的相容性，不如在AI中嵌入通用的、簡(jiǎn)明的道德禁令，統(tǒng)一禁止AI未來可能出現(xiàn)的明顯不道德行為，便于AI系統(tǒng)執(zhí)行與理解。

值得注意的是，倫理學(xué)中被廣泛討論的道德困境無須交由AI處理。對(duì)于道德困境并不存在完美的解決辦法，寄希望于AI并非良策。以自動(dòng)駕駛汽車為例，“電車難題”之類的道德困境被高度簡(jiǎn)化與抽象化，并設(shè)置了極端對(duì)立的選擇，實(shí)際上人類很少面對(duì)此類高難度道德決策。從現(xiàn)實(shí)的角度來看，關(guān)于自動(dòng)駕駛汽車如何應(yīng)對(duì)“電車難題”的研究并不具備較高的優(yōu)先級(jí)。在危急時(shí)刻，自動(dòng)駕駛系統(tǒng)完全可通過隨機(jī)的道德應(yīng)對(duì)方案或直接剎車解決其困境。思想實(shí)驗(yàn)并不等同于現(xiàn)實(shí)狀況，AI道德相關(guān)研究應(yīng)將更多關(guān)注放在解決常見問題而非理想化的道德難題上。例如，自動(dòng)駕駛汽車的相關(guān)道德研究應(yīng)更關(guān)注行人精準(zhǔn)高效檢測(cè)、緊急避讓等能夠避免出現(xiàn)道德糾紛的領(lǐng)域。

總之，當(dāng)?shù)赖聸Q策權(quán)在人類手中時(shí)，不但可以有效防止AI不當(dāng)決策帶來的巨大風(fēng)險(xiǎn)，避免機(jī)器價(jià)值主導(dǎo)社會(huì)發(fā)展，還有助于人類在各類復(fù)雜道德情境中增強(qiáng)道德敏感性與批判質(zhì)疑能力，在權(quán)衡利弊中做出合乎邏輯的道德判斷。在進(jìn)行道德判斷的過程中，人類的共情能力與情感智慧被強(qiáng)烈調(diào)動(dòng)，能夠在考慮相關(guān)者感受與利益的過程中深刻體會(huì)到智能時(shí)代的道德變遷，并增強(qiáng)自身的責(zé)任感。在此基礎(chǔ)之上，人類才能從整體與長(zhǎng)遠(yuǎn)視角審視人機(jī)之間的道德關(guān)系，并有意識(shí)地尋找人機(jī)和諧相處的最優(yōu)解。

（三）制度化防止AI道德責(zé)任對(duì)齊

AI價(jià)值對(duì)齊的有限責(zé)任原則強(qiáng)調(diào)應(yīng)制度化防止AI道德責(zé)任對(duì)齊，這是消解無人擔(dān)責(zé)風(fēng)險(xiǎn)的有效手段。在人機(jī)關(guān)系上，有限主義堅(jiān)持人類視角下的人機(jī)協(xié)同論，這意味著，當(dāng)人機(jī)協(xié)作完成復(fù)雜任務(wù)時(shí)，道德責(zé)任的分配應(yīng)基于人類視角，挺立人類的道德主體地位，明確道德責(zé)任只能由人類承擔(dān)。以自動(dòng)駕駛汽車為例，無人擔(dān)責(zé)風(fēng)險(xiǎn)源于人類試圖使AI像人類一樣承擔(dān)道德責(zé)任，具體來說，AI所展現(xiàn)的自主性與一定限度的不可控性為人類推卸自身道德責(zé)任提供了看似合理的理由。在完全自動(dòng)駕駛的情況下，雖然事故原因可追溯至AI系統(tǒng)，但是我們僅能為其分配道德責(zé)任，無法讓其承擔(dān)道德責(zé)任。道德責(zé)任的承擔(dān)需滿足兩個(gè)條件，即經(jīng)濟(jì)補(bǔ)償或自我反思，AI本身并無財(cái)產(chǎn)，無法在經(jīng)濟(jì)方面補(bǔ)償受害者，同時(shí)AI很難具備愧疚、反思等心理活動(dòng)。因此，在可預(yù)見的未來，將AI作為道德責(zé)任主體是不現(xiàn)實(shí)的、不可行的，道德責(zé)任只能由人類承擔(dān)。

即便將道德責(zé)任完全分配給人類，依然無法明確承擔(dān)道德責(zé)任的具體人類主體。一旦AI成為事故的相關(guān)方，便會(huì)涉及算法設(shè)計(jì)者、AI生產(chǎn)者、AI監(jiān)管者等主體，如此便不可避免地加劇了“多手問題”，即難以分配各參與主體的責(zé)任內(nèi)容與擔(dān)責(zé)程度。對(duì)此，可借鑒奧特弗利德·赫費(fèi)（Otfried Hffe）提出的“責(zé)任鏈”概念，當(dāng)某一主體為其他主體采取某種行動(dòng)創(chuàng)造了前提條件，他們便處于同一責(zé)任鏈中，此種情況下并不應(yīng)由某主體單獨(dú)承擔(dān)責(zé)任，每一主體都應(yīng)承擔(dān)部分責(zé)任，即使某些主體并未直接造成損害或無法阻止損害的發(fā)生。值得注意的是，人類借AI所推脫的道德責(zé)任在本質(zhì)上屬于后向性責(zé)任，即在事故發(fā)生后向前追溯的道德責(zé)任，由于大部分事故的因果鏈條難以厘清，因此存在“鉆空子”的可能性。但是，與后向性責(zé)任相對(duì)，存在前瞻性責(zé)任，即盡最大努力防范事故發(fā)生的道德責(zé)任，以此為標(biāo)準(zhǔn)，一旦事故發(fā)生，各人類主體均具備承擔(dān)道德責(zé)任的理由。

盡管相關(guān)人類主體均具備承擔(dān)道德責(zé)任的理由，但這并不意味著應(yīng)平等分配道德責(zé)任，如何合理分配道德責(zé)任份額的難題凸顯。對(duì)此，應(yīng)借助制度化手段，通過建立正式的、全面的規(guī)范與程序，盡可能減少道德責(zé)任分配的隨意性和不確定性，設(shè)計(jì)出各相關(guān)者均認(rèn)可的歸責(zé)方案。制度化的關(guān)鍵在于設(shè)立AI集體擔(dān)責(zé)協(xié)商平臺(tái)，使道德責(zé)任主體、道德責(zé)任受體與各相關(guān)利益方面對(duì)面的、實(shí)時(shí)動(dòng)態(tài)地表達(dá)訴求，回應(yīng)質(zhì)疑，在充分民主化的基礎(chǔ)上嘗試形成道德責(zé)任分配的最優(yōu)解。此外，還需借助技術(shù)、經(jīng)濟(jì)、倫理、監(jiān)管等手段將協(xié)商一致的歸責(zé)方案落地。首先，在技術(shù)上，可在AI中配備類似飛行數(shù)據(jù)記錄器的“倫理黑匣子”，為分析事故原因提供數(shù)據(jù)支持；其次，在經(jīng)濟(jì)上，可通過保險(xiǎn)與稅收的方式實(shí)現(xiàn)集體擔(dān)責(zé)；再次，算法設(shè)計(jì)師應(yīng)通過負(fù)責(zé)任創(chuàng)新、價(jià)值敏感性設(shè)計(jì)等手段承擔(dān)起自身的前瞻性責(zé)任；最后，監(jiān)管機(jī)構(gòu)應(yīng)致力于全時(shí)段、全方位的動(dòng)態(tài)監(jiān)督與審查，精準(zhǔn)追蹤AI技術(shù)發(fā)展前沿，及時(shí)推動(dòng)相關(guān)法規(guī)的更新與調(diào)整，確保其適用性與有效性。

（四）控制AI價(jià)值對(duì)齊的應(yīng)用范圍

AI價(jià)值對(duì)齊的有限應(yīng)用原則主張控制AI價(jià)值對(duì)齊的應(yīng)用范圍，防止AI濫用風(fēng)險(xiǎn)。在現(xiàn)實(shí)的應(yīng)用中，AI發(fā)展的有限主義進(jìn)路強(qiáng)調(diào)AI的可控性，主張實(shí)現(xiàn)對(duì)AI及時(shí)的、局部的、動(dòng)態(tài)的控制。因此，當(dāng)AI價(jià)值對(duì)齊存在各類風(fēng)險(xiǎn)尤其是濫用風(fēng)險(xiǎn)時(shí)，便應(yīng)謹(jǐn)慎劃定AI價(jià)值對(duì)齊的合理邊界，真正做到以人為本、有利于社會(huì)福祉。

一方面，應(yīng)控制AI價(jià)值對(duì)齊的應(yīng)用場(chǎng)景范圍。目前，AI價(jià)值對(duì)齊技術(shù)還不夠成熟，須在一定程度上限制AI價(jià)值對(duì)齊在敏感領(lǐng)域和關(guān)鍵領(lǐng)域的應(yīng)用，如軍事、司法等領(lǐng)域，避免造成難以挽回的、大范圍的負(fù)面后果，從而集中資源在與人類日常息息相關(guān)的信息傳播、求職審核等領(lǐng)域確保AI價(jià)值對(duì)齊效果，緩解AI廣泛應(yīng)用所引發(fā)的歧視與社會(huì)不公等倫理問題。在AI價(jià)值對(duì)齊的各類應(yīng)用場(chǎng)景中，也應(yīng)做好教育宣傳工作，使人類意識(shí)到AI價(jià)值對(duì)齊的有限性，避免過于依賴與信任AI做出的價(jià)值決策。當(dāng)AI價(jià)值對(duì)齊在特定領(lǐng)域發(fā)展較為成熟后，在確保安全的前提下，應(yīng)逐步將AI價(jià)值對(duì)齊擴(kuò)展至其他應(yīng)用場(chǎng)景，真正做到先試點(diǎn)再推廣，循序漸進(jìn)。另一方面，應(yīng)控制AI價(jià)值對(duì)齊的應(yīng)用對(duì)象范圍。未成年人群體與老年人群體是社會(huì)脆弱群體，在此類人群中，AI價(jià)值對(duì)齊應(yīng)慎之又慎，放緩速度，嚴(yán)格審查。其原因在于，與成人相比，未成年群體身心發(fā)展不夠成熟，極易受到AI價(jià)值對(duì)齊相關(guān)風(fēng)險(xiǎn)的影響，被不良信息與不道德行為引導(dǎo)，形成不正確的價(jià)值觀，從而做出危害社會(huì)的行為。此外，與年輕人相比，老年人生理與心理較為脆弱，技術(shù)適應(yīng)性較差，極易受到AI的誤導(dǎo)、欺騙甚至操控。老年人往往擁有一整套較為固定的價(jià)值觀，當(dāng)AI價(jià)值對(duì)齊的相關(guān)價(jià)值規(guī)范更新速度過快時(shí)，極易引發(fā)老年人的抵觸心理與排斥行為。

總之，控制AI價(jià)值對(duì)齊的應(yīng)用范圍的關(guān)鍵在于建立嚴(yán)格的審查機(jī)制。在AI設(shè)計(jì)、生產(chǎn)、應(yīng)用的全時(shí)段都應(yīng)進(jìn)行嚴(yán)格的價(jià)值對(duì)齊審查，并進(jìn)行全面的風(fēng)險(xiǎn)評(píng)估，根據(jù)實(shí)際狀況及時(shí)反饋并動(dòng)態(tài)調(diào)整AI價(jià)值對(duì)齊的應(yīng)用范圍。此外，還應(yīng)通過跨學(xué)科協(xié)作制定出嚴(yán)密可行的應(yīng)急預(yù)案，確保AI價(jià)值對(duì)齊出現(xiàn)風(fēng)險(xiǎn)時(shí)能夠迅速、科學(xué)、有效應(yīng)對(duì)。

參考文獻(xiàn)

[1]Brian Christian. The alignment problem：machine learning and human values[M]. New York: W.W. Norton ＆ Company， 2020.

[2]劉永謀，白英慧.堅(jiān)持人工智能（AI）發(fā)展的有限主義進(jìn)路[J].科學(xué)·經(jīng)濟(jì)·社會(huì)，2023 （6）:58-71.

[3][英]尼克·波斯特洛姆.超級(jí)智能：路線圖、危險(xiǎn)性與應(yīng)對(duì)策略[M].張?bào)w偉，張玉青，譯.北京:中信出版社，2015.

[4][美]斯圖爾特·羅素.AI新生：破解人機(jī)共存密碼：人類最后一個(gè)大問題[M].張羿，譯.北京:中信出版集團(tuán)，2020:20.

[5]劉永謀.技術(shù)治理通論[M].北京:北京大學(xué)出版社，2023.

[6]亓奎言.神經(jīng)倫理學(xué):實(shí)證與挑戰(zhàn)[M].上海:上海交通大學(xué)出版社，2017:8.

[7][美]塞繆爾·鮑爾斯，[美]赫伯特·金迪斯.合作的物種——人類的互惠性及其演化[M].張弘，譯.杭州:浙江大學(xué)出版社，2015.

[8][美]邁克爾·托馬塞洛.人類道德自然史[M].王銳俊，譯.北京:新華出版社，2017.

[9]Richard Dawkins. The selfish gene[M].Oxford: Oxford University Press， 2006.

[10]矣曉沅，謝幸.大模型道德價(jià)值觀對(duì)齊問題剖析[J].計(jì)算機(jī)研究與發(fā)展，2023 （9）:1926-1945.

[11]胡珍妮.道德生物增強(qiáng)：弱還原論版本的自然主義道德觀[J].科學(xué)學(xué)研究，2024 （6）:1145-1151.

[12]張玉帥，殷杰.論開明自然主義的道德研究[J].科學(xué)技術(shù)哲學(xué)研究，2020（2）:57-62.

[13]Brent Daniel Mittelstadt， Patrick Allo， Mariarosaria Taddeo， et al. The ethics of algorithms: Mapping the debate[J].Big data & society，2016，3:1-21.

[14]Jiaming Ji， Tianyi Qiu， Boyuan Chen， et al. AI alignment: A comprehensive survey[EB/OL]. （2023-10-30）[2024-07-16]. https:∥arxiv.org/abs/2310.19852.

[15]Yizhong Wang， Yeganeh Kordi， Swaroop Mishra， et al. Self-instruct: aligning language model with self generated instructions[EB/OL]. （2022-12-20）[2024-07-16]. https:∥arxiv.org/abs/2212.10560.

[16]Ilia Shumailov， Zakhar Shumaylov， Yiren Zhao， et al. AI models collapse when trained on recursively generated data[J]. Nature，2024，631（8022）:755-759.

[17]Mark Coeckelbergh. AI ethics[M].Cambridge:The MIT Press，2020:111.

[18]World Economic Forum. Global risks report[EB/OL].（2024-01-10）[2024-07-15]. https:∥cn.weforum.org/publications/global-risks-report-2024/.

[19]于雪.智能機(jī)器的道德設(shè)計(jì)進(jìn)路及其責(zé)任歸因[J].倫理學(xué)研究，2022（4）:104-111.

[20][德]奧特弗利德·赫費(fèi). 作為現(xiàn)代化之代價(jià)的道德[M]. 鄧安慶，朱更生，譯.上海:上海譯文出版社，2005:72-73.

[21]Alan F. T. Winfield， Marina Jirotka. The case for an ethical black box[J]. Towards autonomous robotic systems， 2017:262-273.

[22]Alexander Hevelke， Julian Nida-Rümelin. Responsibility for crashes of autonomous vehicles: an ethical analysis[J]. Science and engnieering ethics， 2015，21:619-630.

【本文原載于《華中科技大學(xué)學(xué)報(bào)（社會(huì)科學(xué)版）》2024年第5期，澎湃新聞經(jīng)授權(quán)轉(zhuǎn)載】

責(zé)任編輯：龔思量

圖片編輯：張穎

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#AI價(jià)值對(duì)齊 #有限主義 #自然主義 #類人道德