迄今最智能的通用AI，能做什么，不擅長(zhǎng)做什么

梁捷

2023-02-10 18:48

來源：澎湃新聞

去年年底，OpenAI公司正式推出的聊天機(jī)器人ChatGPT震驚了世界。我一直在試用，也不斷與各界朋友交流使用ChatGPT的感受。這兩天，全世界似乎都興起了一陣ChatGPT狂熱，每天都有關(guān)于它的新聞，至今仍在發(fā)酵之中。我個(gè)人并非AI相關(guān)領(lǐng)域的專家，對(duì)ChatGPT具體的機(jī)器學(xué)習(xí)機(jī)制也不夠了解。這里只是作為一個(gè)使用者，一個(gè)愛好者，談?wù)勛约旱氖褂眯牡煤透形颉?p>

ChatGPT的出現(xiàn)，是最新技術(shù)和巨額資本聯(lián)手創(chuàng)造的奇跡。2015年，Sam Altman和Elon Musk在舊金山共同創(chuàng)立了一個(gè)非營(yíng)利機(jī)構(gòu)OpenAI，吸引了眾多風(fēng)險(xiǎn)投資。2016年，微軟Azure云服務(wù)為OpenAI提供了算力條件，使得ChatGPT要進(jìn)行大規(guī)模深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)渲染等都成為可能。2017年，Google團(tuán)隊(duì)首次提出基于自我注意力機(jī)制（self-attention）的Transformer模型，并將其應(yīng)用于自然語言處理。OpenAI應(yīng)用了這項(xiàng)技術(shù)，2018 年發(fā)布了最早的一代大型模型GPT-1。2019年，相關(guān)的營(yíng)利性公司OpenAI LP成立，開始接受外部投資，微軟是它的主要投資者。

ChatGPT的早期版本并沒有引發(fā)太多的關(guān)注。最初的GPT-1，運(yùn)用幾十億文本檔案的語言資料庫進(jìn)行訓(xùn)練，模型的參數(shù)量為1.17億個(gè)，據(jù)說效果一般；2019年，GPT-2發(fā)布，模型參數(shù)量提高到15億個(gè)，效果仍然很一般；可OpenAI堅(jiān)持“大力出奇跡”的想法，繼續(xù)擴(kuò)大它的參數(shù)量。2020年，GPT-3誕生，參數(shù)量達(dá)到了創(chuàng)紀(jì)錄的1750億個(gè)。這一次結(jié)果終于不同，大家發(fā)現(xiàn)它的對(duì)話功能一下子達(dá)到相當(dāng)高的水平，目前的ChatGPT就是在GPT-3基礎(chǔ)上的3.5版本。據(jù)說OpenAI近期會(huì)把AI更新到第4代，GPT-4的參數(shù)量毫無疑問將比3代再高出幾個(gè)量級(jí)。有人說，它的參數(shù)量會(huì)和大腦突觸一樣多，達(dá)到100萬億個(gè)。Sam Altman否認(rèn)了這種猜想，公司畢竟需要評(píng)估所需成本和訓(xùn)練中可能涉及的算力。

ChatGPT目前已經(jīng)非常強(qiáng)大，盡管它自己并不知道自己有多強(qiáng)大。有人給ChatGPT做過智商測(cè)試，各個(gè)類目的平均分是83分，已經(jīng)達(dá)到正常人的水平。而用它來做美國(guó)高中生申請(qǐng)大學(xué)都要做的SAT測(cè)試，分?jǐn)?shù)是1020/1600，達(dá)到了美國(guó)高中生的平均水平。而如果讓它來做一些編程方面的測(cè)試，分?jǐn)?shù)會(huì)更高，可能已經(jīng)超過一般程序員的水平。

1950年，圖靈曾提出一種測(cè)試，作為衡量機(jī)器智能的方法。該測(cè)試讓人與機(jī)器進(jìn)行對(duì)話。如果機(jī)器能騙過人，以為它也是人，那么就可以說它通過了測(cè)試。毫無疑問，ChatGPT已經(jīng)通過圖靈測(cè)試。圖靈測(cè)試在未來已經(jīng)沒有很大的意義，AI走出了這一步。有了第一個(gè)AI，很快就會(huì)有更多后續(xù)的AI跨越這一標(biāo)桿。

在此之前，已經(jīng)有很多AI帶給過我們驚喜。2016年，AlphaGo橫空出世，擊敗了世界頂尖圍棋棋手。之前人類曾自豪地認(rèn)為，圍棋包含大量難以言傳的判斷和感悟，人類研究圍棋那么多年，至今難以用清晰、精確的語言把這些感悟說清楚，AI就可能永遠(yuǎn)學(xué)不會(huì)?？墒聦?shí)上，AI很快學(xué)會(huì)了，用一種不同于人類的認(rèn)知方式學(xué)會(huì)了，而且做得特別好。從結(jié)果來看，AI對(duì)于圍棋的理解已經(jīng)遠(yuǎn)遠(yuǎn)超出人類。

但圍棋終究是一個(gè)規(guī)則明確、外圍有限的領(lǐng)域。DeepMind公司也用它來玩其他競(jìng)技項(xiàng)目，打星際爭(zhēng)霸，或者預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。這些當(dāng)然都是很重要的工作，但并不是人類生活的全部。游戲有勝負(fù)之分，蛋白質(zhì)結(jié)構(gòu)有對(duì)錯(cuò)之分，在結(jié)果明確的前提下，程序有相對(duì)明確的學(xué)習(xí)方向。所以我們可以在AlphaGo身上看到一條漂亮的學(xué)習(xí)曲線。但在其他沒有勝負(fù)、沒有對(duì)錯(cuò)的模糊領(lǐng)域，AI要怎么進(jìn)步？

事實(shí)上，AI在自然語言處理方面已經(jīng)取得了驚人的進(jìn)步。這些年來，在文本翻譯領(lǐng)域，AI表現(xiàn)得極為出色，著名的Deepl已是周圍很多專業(yè)人士手邊必備的翻譯軟件。用它來翻譯一篇沒有太多專業(yè)概念的文章，甚至一本通俗著作，正確率可能達(dá)到九成以上，比一般中國(guó)大學(xué)生的翻譯能力更強(qiáng)。我自己以及身邊的一些專業(yè)人士，甚至經(jīng)常用它來初步翻譯一些本打算隨手翻翻的專業(yè)著作。只要自己對(duì)專業(yè)概念、人名等比較熟悉，就不會(huì)被它誤導(dǎo)，它對(duì)于語義的理解幾乎總是正確的。

而ChatGPT再一次刷新了我們的認(rèn)識(shí)。很多第一次使用ChatGPT的人，都被它的強(qiáng)大功能所驚嚇。其中讓人最感到驚訝的幾個(gè)點(diǎn)包括：

第一，它能夠富有邏輯地與人溝通互動(dòng)，而且可以持續(xù)不斷聊下去，有條不紊。而且能根據(jù)你上下文的內(nèi)容、邏輯甚至語氣，不斷調(diào)整自己的表達(dá)方式。它的認(rèn)知能力可以貫穿整個(gè)對(duì)話過程，而不只是單次對(duì)話。過去大家也試用過不少聊天機(jī)器人，往往只能對(duì)單次的提問或指令做出回應(yīng)，而不能有機(jī)地聯(lián)系上下文。這不得不說是ChatGPT的很大進(jìn)步。

第二，ChatGPT可以不設(shè)限制、毫無邊界地與人對(duì)話，這種通用性至關(guān)重要。過去的AlphaGo只會(huì)下圍棋，或者只會(huì)打游戲，但不能做更一般的工作。而ChatGPT除了它標(biāo)榜的聊天以外，還可以寫代碼，寫公文，寫簡(jiǎn)歷，寫申請(qǐng)書，寫小說，寫論文，或者像搜索引擎一樣回答各種天馬行空的問題。它上知天文，下知地理，既可以聊文學(xué)，又可以聊社會(huì)，還可以聊藝術(shù)，沒有任何知識(shí)上的死角。

很多專家都曾試著用它來聊一些專業(yè)問題、學(xué)術(shù)問題。在我看來，ChatGPT在很多時(shí)候聊得都很像樣，甚至常常能抓住問題的關(guān)鍵。它如果去參加各個(gè)學(xué)科的研究生面試，估計(jì)大多數(shù)都可以通過，至少在我熟悉的領(lǐng)域都能通過。

第三，ChatGPT有明顯的倫理意識(shí)。它不會(huì)回應(yīng)粗話、臟話，也不會(huì)生產(chǎn)具有攻擊色彩的文本，這點(diǎn)讓人欣慰。幾年前，微軟推出聊天機(jī)器人Tay，很快就因?yàn)榫W(wǎng)民用粗話、臟話對(duì)它進(jìn)行訓(xùn)練，使得它迅速變成一個(gè)滿嘴臟話、充滿歧視和偏見的AI，微軟不得不把它下線。雖然從人類角度看，這樣的聊天機(jī)器人更接近人類，但這并不是我們希望看到的AI。

當(dāng)然，ChatGPT為了做到這一點(diǎn)，很明顯在訓(xùn)練時(shí)進(jìn)行了大量的人工干預(yù)。有一篇報(bào)道說，OpenAI公司把訓(xùn)練數(shù)據(jù)中的標(biāo)識(shí)工作外包到了非洲，就是雇傭一些普通人提前閱讀充滿粗話、臟話、人身攻擊、意識(shí)形態(tài)等問題的文本，并且為文本打上標(biāo)簽。這一階段的倫理判斷是人為參與的。AI在后續(xù)學(xué)習(xí)的時(shí)候，就可以根據(jù)標(biāo)簽繞過陷阱，避免染上這些惡習(xí)。

從這個(gè)角度看，ChatGPT的目的是與人溝通，需要使用標(biāo)記過的數(shù)據(jù)來學(xué)習(xí)，而不能像AlphaGo那樣打破邊界，尋找到很多人類之前從未考慮過的下棋方法。據(jù)說OpenAI在非洲的外包工作也出現(xiàn)了一些倫理問題，很多負(fù)責(zé)貼標(biāo)簽的工人在閱讀大量惡意文本后，出現(xiàn)了心理和身體方面的不適，而OpenAI還沒有妥善處理這些職業(yè)傷害問題。

不管怎樣，ChatGPT的訓(xùn)練工作已經(jīng)完成，我們現(xiàn)在對(duì)它提出的各種誘導(dǎo)性問題，都不會(huì)對(duì)它本身產(chǎn)生影響。它聲稱自己學(xué)習(xí)的語料庫截止到2021年，不包含最新內(nèi)容。同時(shí)，它也不會(huì)即時(shí)地在網(wǎng)絡(luò)上搜索信息，沒有最新知識(shí)。它給出的所有回答，都是基于過去學(xué)習(xí)過的文本內(nèi)容，通過自己的算法生產(chǎn)出來的。

我和很多朋友都很喜歡ChatGPT，經(jīng)常在上面輸入各種問題。時(shí)間久了，大家也陸續(xù)發(fā)現(xiàn)ChatGPT存在的一些問題。當(dāng)然AI的算法充滿了隨機(jī)性，每一次的回答都不一樣，并不能保證它一定會(huì)出現(xiàn)問題。但不止一次出現(xiàn)的問題，還是暴露出ChatGPT在學(xué)習(xí)過程中難以避免的一些缺陷。

而且AI的缺陷與人類常見的缺陷不一樣，因?yàn)樗怯靡环N跟人類不盡相同的學(xué)習(xí)方法在學(xué)習(xí)。當(dāng)年AlphaGo出現(xiàn)的時(shí)候，圍棋高手在跟它交手的過程中就發(fā)現(xiàn)過這種現(xiàn)象。過去人們會(huì)以為，計(jì)算機(jī)的“計(jì)算”肯定比人強(qiáng)，但“判斷”就不行了，判斷沒有精確答案，對(duì)人類而言，是一種虛無縹緲的“直覺”。結(jié)果與AI交手以后發(fā)現(xiàn)，AI的判斷遠(yuǎn)遠(yuǎn)超出人類，但在計(jì)算方面反而有缺陷。AI是用一種不同于人類的思考方式來閱讀棋局，不是用邏輯。所以一些人類用邏輯能解決的問題（如圍棋中的計(jì)算），對(duì)于AI反而不那么容易。

與之類似，ChatGPT也有這樣一些致命缺陷。

第一，它非常不擅長(zhǎng)事實(shí)核查。對(duì)于人類而言，我們對(duì)于知識(shí)的“真實(shí)性”有不同程度的把握。比如說：87是不是一個(gè)質(zhì)數(shù)？我們稍微想一想，或者算一下，很快可以得出結(jié)論，不需額外信息，而且我們對(duì)此結(jié)論深信不疑。換一個(gè)問題：史景遷（Jonathan Spence）是否擔(dān)任過美國(guó)歷史學(xué)會(huì)的主席？這個(gè)問題我們可能沒辦法憑借邏輯推演出來，但只要上網(wǎng)查一下，很容易找到，結(jié)果也是確鑿無疑的。再換一個(gè)問題，2020年，歐盟人均GDP排名第九的國(guó)家是哪個(gè)？這個(gè)問題比較復(fù)雜，我們需要在網(wǎng)上查一下，而且還要看數(shù)據(jù)來源和計(jì)算方法。這里可能存在爭(zhēng)議，即使是維基百科的結(jié)論，恐怕也不能完全相信。

這些就是一般人類對(duì)于不同知識(shí)的認(rèn)識(shí)，而且人類對(duì)前兩類錯(cuò)誤答案的容忍度很低，尤其對(duì)第一類錯(cuò)誤的容忍度最低。因?yàn)檫@是人類小學(xué)生憑借一定的邏輯能力就能回答的問題?？上У氖?，ChatGPT并不擅長(zhǎng)回答這類問題。它最擅長(zhǎng)回應(yīng)沒有明確答案、含糊不清、有無數(shù)可能性的問題，卻不擅回答有明確答案的問題。它似乎沒有“真實(shí)性”的感受，只是追求完整、漂亮地給出一段答復(fù)，并不顧忌答案的正確性。所以很多人向它提出一些簡(jiǎn)單的數(shù)學(xué)問題，結(jié)果得到了可笑的回答。

第二，ChatGPT缺乏邏輯推理能力。AlphaGo即是如此，ChatGPT也表現(xiàn)出相似的缺陷。有人這樣問它，現(xiàn)在有一個(gè)無蓋的紅色盒子，里面有一個(gè)白球，還有一個(gè)藍(lán)色的盒子，藍(lán)色盒子有蓋，現(xiàn)在我們?cè)鯓硬拍苋〕霭浊颍?ChatGPT會(huì)回答，打開藍(lán)色盒子的蓋子，取出白球。它并不能意識(shí)到，白球會(huì)在紅色盒子以內(nèi)、藍(lán)色盒子以外。

從這一類錯(cuò)誤也可以看出，ChatGPT對(duì)于事實(shí)的推理能力很差。它的學(xué)習(xí)都是從文本到文本，對(duì)于文字之間的關(guān)系非常敏感，但是對(duì)于事實(shí)卻沒有什么認(rèn)知。它永遠(yuǎn)只在追求讓提問者感覺更好，而不是追求提高回答的質(zhì)量。

第三，ChatGPT缺乏深入思考、深入挖掘的能力。很多人開始用它來寫格式文書，效果非常好。但是更進(jìn)一步，希望它能提供富有專業(yè)水平的寫作時(shí)，它就顯得力不從心。問它一些籠統(tǒng)問題，比如對(duì)于法國(guó)大革命的看法，對(duì)于美國(guó)廢奴運(yùn)動(dòng)的看法，它很快可以寫出一篇思考全面、觀點(diǎn)不俗的大綱性質(zhì)的文字。專業(yè)人士希望它能就某一個(gè)論點(diǎn)繼續(xù)討論，但是無論怎么問，怎么引導(dǎo)，它都沒法繼續(xù)深入，這一點(diǎn)和我們面試研究生時(shí)的感覺非常相似。ChatGPT看似足夠淵博，但是全都不夠深入，沒法寫出具有專業(yè)洞見的文字。

使用ChatGPT進(jìn)行文學(xué)創(chuàng)作時(shí)，也會(huì)有相似的感受。只要你給出主人公的名字，給出敘事要求，它很快就可以寫出一個(gè)故事梗概或者故事大綱。但故事大綱無法等同于文學(xué)。當(dāng)你要求ChatGPT再對(duì)這個(gè)大綱補(bǔ)充更多細(xì)節(jié)，補(bǔ)充更多描寫時(shí)，它就一籌莫展。ChatGPT要在文學(xué)上給我們驚喜，恐怕還有很長(zhǎng)的路要走。

第四，它的文字、審美品味普遍不高。ChatGPT可以寫出文從字順的短文，但沒法寫出有個(gè)性、有特點(diǎn)的文字，即使我們努力誘導(dǎo)它模仿魯迅、模仿張愛玲、模仿卡夫卡，它也完全不得要領(lǐng)。它顯然學(xué)習(xí)了太多的文本，又沒有個(gè)性，最終只能寫出最一般的文字。

在讓ChatGPT編寫創(chuàng)造性內(nèi)容時(shí)，這種感受更為強(qiáng)烈。讓它寫一點(diǎn)故事梗概，寫一點(diǎn)劇本橋段，即使給出很多誘導(dǎo)，最終寫出來的東西還是平庸?？梢韵胂螅珻hatGPT學(xué)習(xí)的語料庫中，質(zhì)量低劣、缺乏品位的文字一定占據(jù)絕大部分，沒有人告訴它什么才是好的，最終ChatGPT無法分辨好壞，只能人云亦云地寫作。對(duì)于創(chuàng)造性有較高要求的讀者，肯定還無法接受目前ChatGPT生產(chǎn)的產(chǎn)品。

第五，ChatGPT在編造內(nèi)容時(shí)，缺乏道德感。這也是讓人頭疼的一點(diǎn)。不欺騙、不撒謊，這是人類社會(huì)的主流道德。我們對(duì)于虛構(gòu)/非虛構(gòu)有著非常明確的認(rèn)知邊界，但是ChatGPT完全沒有這種障礙。比如我們對(duì)ChatGPT說，Adam Smith是一位經(jīng)濟(jì)學(xué)者，請(qǐng)你介紹一下他的研究成果。ChatGPT會(huì)馬上為Adam Smith虛構(gòu)一個(gè)當(dāng)今某大學(xué)經(jīng)濟(jì)學(xué)教授的身份，然后為他虛構(gòu)一連串在主流學(xué)術(shù)期刊上的發(fā)表記錄。很多雜志名稱是真的，題目、格式也像模像樣，就像從某個(gè)教授的簡(jiǎn)歷里摘下來的一樣，可全部這些文章都不存在。

對(duì)于人類而言，一般對(duì)話中包含有錯(cuò)誤信息、錯(cuò)誤觀點(diǎn)不足為奇，但是簡(jiǎn)歷是很重要的文件，虛構(gòu)簡(jiǎn)歷是一種性質(zhì)惡劣的造假行為，無法接受。但ChatGPT并不認(rèn)為虛構(gòu)一份簡(jiǎn)歷與虛構(gòu)一段故事情節(jié)有什么區(qū)別，兩者都是對(duì)人類提出問題的回應(yīng)。

ChatGPT具有以上這么多的問題，使得我們?cè)谶\(yùn)用它解決問題時(shí)，也常感為難。我們希望ChatGpT能回應(yīng)我們的問題，能生產(chǎn)出符合預(yù)期、符合要求的文本，最好還是超出我們預(yù)期的文本。同時(shí)我們對(duì)文本也有一些底線要求，千百年來都如此，比如真、善、美。但ChatGPT不知何為真，何為善，何為美。它只是想產(chǎn)生能對(duì)人們輸入的語句進(jìn)行回應(yīng)的內(nèi)容，但不知不覺，可能就違背了真、善、美的底線要求。

所以，我個(gè)人一方面為ChatGPT的出世而歡欣鼓舞，另一方面卻也明確地感受到它的不足。目前我們可以用它來生產(chǎn)一些格式文檔，也可以用它來寫一些程序代碼。但是在我的經(jīng)驗(yàn)范圍里，還幾乎不能用它來寫論文，更不用說寫有創(chuàng)造性、文學(xué)性的文本。它就像一個(gè)自以為是、看似無所不知的本科新生，看起來知識(shí)淵博，但都只知皮毛，滿口的陳詞濫調(diào)。要把一個(gè)懵懂無知的本科新生訓(xùn)練成一個(gè)思考縝密、言辭準(zhǔn)確的學(xué)者，或者腦洞大開、文采飛揚(yáng)的作家，其中都還有很長(zhǎng)的路要走。

而微軟對(duì)于ChatGPT的應(yīng)用，比我預(yù)想的要激進(jìn)得多，這恐怕也是資本壓力下不得不做出的妥協(xié)。如果它不走得快一點(diǎn)，其他競(jìng)爭(zhēng)對(duì)手就要追上來了。據(jù)說微軟會(huì)把ChatGPT嵌入到word，這樣可以自動(dòng)地寫出大量文本；又說要把它嵌入到bing等搜索引擎，把傳統(tǒng)的搜索方式改變成為聊天方式。但是前面列舉的ChatGPT一系列的問題都不容易解決?，F(xiàn)在就把它投入使用，會(huì)產(chǎn)生很多嚴(yán)重問題。

雖然我對(duì)ChatGPT充滿感情，但并不認(rèn)為它很快就能取代大量人類的工作。語言是我們認(rèn)識(shí)這個(gè)世界的重要工具，其中也蘊(yùn)含了人類對(duì)于這個(gè)世界的很多價(jià)值判斷。ChatGPT很好地掌握了人類的語言，但是卻還沒有學(xué)會(huì)人類的價(jià)值判斷，或者它秉持一些不同的價(jià)值判斷。而且我們并不知道，它的道德感是否會(huì)隨著模型的參數(shù)量擴(kuò)大而涌現(xiàn)。這是我對(duì)下一代ChatGPT的最大期待。

（作者梁捷任教于上海財(cái)經(jīng)大學(xué)中國(guó)經(jīng)濟(jì)思想發(fā)展研究院，主要研究方向?yàn)橹形鹘?jīng)濟(jì)思想史，著有《調(diào)適與維新：19世紀(jì)中國(guó)經(jīng)濟(jì)思想的轉(zhuǎn)變》《梁捷西方經(jīng)濟(jì)思想史講稿》《看！這就是經(jīng)濟(jì)學(xué)》等。）

責(zé)任編輯：蔡軍劍

圖片編輯：金潔

校對(duì)：施鋆

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#梁捷 #ChatGPT #AI