觀察｜大模型潮即將耗盡全宇宙文本，高質(zhì)量數(shù)據(jù)從哪里來？

澎湃新聞?dòng)浾?邵文

2023-07-17 07:52

來源：澎湃新聞

聽全文

·專家警告，ChatGPT等人工智能驅(qū)動(dòng)的機(jī)器人可能很快就會“耗盡宇宙中的文本”。同時(shí)，用AI生成的數(shù)據(jù)“反哺”AI或造成模型崩潰。未來模型訓(xùn)練使用的高質(zhì)量數(shù)據(jù)可能會愈來愈昂貴，網(wǎng)絡(luò)走向碎片化和封閉化。

·“當(dāng)大模型發(fā)展走向更深度，比如行業(yè)大模型，所需的數(shù)據(jù)就不是互聯(lián)網(wǎng)免費(fèi)公開的數(shù)據(jù)了，要訓(xùn)練出精度極高的的模型，需要的是行業(yè)專業(yè)知識，甚至商業(yè)機(jī)密類型的知識。要讓大家貢獻(xiàn)這樣的語料庫，肯定需要有一種權(quán)益分配機(jī)制?！?/span>

作為人工智能基礎(chǔ)設(shè)施的“三駕馬車”之一，數(shù)據(jù)的重要性一直不言而喻。隨著大語言模型熱潮進(jìn)入高峰期，業(yè)界對數(shù)據(jù)的關(guān)注度前所未有。

7月初，加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)教授、《人工智能——現(xiàn)代方法》作者斯圖爾特·羅素（Stuart Russell）發(fā)出警告稱，ChatGPT等人工智能驅(qū)動(dòng)的機(jī)器人可能很快就會“耗盡宇宙中的文本”，通過收集大量文本來訓(xùn)練機(jī)器人的技術(shù)“開始遇到困難”。研究機(jī)構(gòu)Epoch估計(jì)，機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會在2026年前耗盡所有“高質(zhì)量語言數(shù)據(jù)”。

“數(shù)據(jù)質(zhì)量和數(shù)據(jù)量將是下一階段大模型能力涌現(xiàn)關(guān)鍵中的關(guān)鍵?！敝行胖菐鞂＜椅瘑T會主任、中信建投證券研究所所長武超在2023世界人工智能大會（WAIC）上分享了一個(gè)測算，“未來一個(gè)模型的好壞，20%由算法決定，80%由數(shù)據(jù)質(zhì)量決定。接下來高質(zhì)量的數(shù)據(jù)將是提升模型性能的關(guān)鍵?！?/p>

然而，高質(zhì)量數(shù)據(jù)從哪里來？目前，數(shù)據(jù)行業(yè)仍然面臨多項(xiàng)亟待解決的問題，比如數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)是什么，如何促進(jìn)數(shù)據(jù)分享和流通，如何設(shè)計(jì)定價(jià)和分配收益體系。

高質(zhì)量數(shù)據(jù)告急

上海數(shù)據(jù)交易所副總經(jīng)理韋志林7月8日在接受澎湃科技（www.xinlihui.cn）在內(nèi)的媒體采訪時(shí)表示，在數(shù)據(jù)、算力、算法“三駕馬車”里，數(shù)據(jù)是最核心、最長遠(yuǎn)、最基礎(chǔ)性的要素。

大型語言模型（LLM）有如今令人驚艷的表現(xiàn)，背后的機(jī)制被概括為“智能涌現(xiàn)”，簡單理解的話，就是以前沒教過AI的技能它現(xiàn)在也會了。而大量的數(shù)據(jù)集是“智能涌現(xiàn)”的重要基礎(chǔ)。

大型語言模型是具有數(shù)十億到數(shù)萬億參數(shù)的深度神經(jīng)網(wǎng)絡(luò)，被“預(yù)訓(xùn)練”于數(shù)TB（Terabytes，1TB=1024GB）的巨大自然語言語料庫上，包括結(jié)構(gòu)化數(shù)據(jù)、在線圖書和其他內(nèi)容。中電金信研究院副院長單海軍在2023世界人工智能大會期間對澎湃科技表示，大模型本質(zhì)上是概率生成模型，其核心亮點(diǎn)在于能理解（上下文提示學(xué)習(xí)）、能推理（思維鏈）和有價(jià)值觀（人類反饋強(qiáng)化學(xué)習(xí)）。ChatGPT比較大的突破是在GPT-3出現(xiàn)時(shí)，大概1750億參數(shù)量，數(shù)據(jù)量為45個(gè)TB。

2018年到2022年初從GPT-1到Gopher的精選語言模型的所有數(shù)據(jù)集的綜合視圖。未加權(quán)大小，以GB為單位。圖源：Alan D. Thompson

“OpenAI一直以來努力的方向都是尋求更多的優(yōu)質(zhì)數(shù)據(jù)，深度解析已有的數(shù)據(jù)，從而使自己的能力越來越強(qiáng)大?！?月12日，復(fù)旦大學(xué)教授、上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任肖仰華對澎湃科技表示，“獲取大規(guī)模、高質(zhì)量、多樣性的數(shù)據(jù)，并深入解析這些數(shù)據(jù)，可能是推動(dòng)大模型發(fā)展的重要思路之一?！?/p>

然而，高質(zhì)量數(shù)據(jù)正在告急。

人工智能研究人員小組Epoch去年11月進(jìn)行的一項(xiàng)研究估計(jì)，機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會在2026年前耗盡所有“高質(zhì)量語言數(shù)據(jù)”。而這項(xiàng)研究發(fā)布時(shí)全球范圍內(nèi)的大模型潮還沒有出現(xiàn)。根據(jù)該研究，“高質(zhì)量”集中的語言數(shù)據(jù)來自“書籍、新聞文章、科學(xué)論文、維基百科和過濾的網(wǎng)絡(luò)內(nèi)容”。

與此同時(shí)，OpenAI等生成式AI開發(fā)機(jī)構(gòu)為訓(xùn)練大型語言模型而進(jìn)行的數(shù)據(jù)收集行為也越來越受爭議。6月底，OpenAI遭集體訴訟，被指竊取“大量個(gè)人數(shù)據(jù)”來訓(xùn)練ChatGPT。包括Reddit和推特在內(nèi)的社交媒體對其平臺數(shù)據(jù)被隨意使用表示不滿，馬斯克7月1日以此理由對推特的閱讀條數(shù)實(shí)行了臨時(shí)限制。

7月12日，羅素在接受科技財(cái)經(jīng)媒體Insider的采訪時(shí)表示，許多報(bào)道雖然未經(jīng)證實(shí)，但都詳細(xì)說明了OpenAI從私人來源購買了文本數(shù)據(jù)集。雖然這種購買有各種可能的解釋，但“自然的推論是沒有足夠的高質(zhì)量公共數(shù)據(jù)。”

有專家提出，或許在數(shù)據(jù)耗盡前會出現(xiàn)新的解決辦法。比如，可以讓大模型自己持續(xù)生成新數(shù)據(jù)，然后經(jīng)過某種質(zhì)量過濾，反過來再用于訓(xùn)練模型，這被稱為自我學(xué)習(xí)或“反哺”。但是，根據(jù)牛津大學(xué)、劍橋大學(xué)、倫敦帝國學(xué)院等機(jī)構(gòu)的研究人員今年5月在預(yù)印本平臺arXiv上發(fā)表的論文，AI用AI生成的數(shù)據(jù)進(jìn)行訓(xùn)練，會導(dǎo)致AI模型存在不可逆轉(zhuǎn)的缺陷，他們將其稱之為模型崩潰（Model Collapse）。這意味著未來模型訓(xùn)練使用的高質(zhì)量數(shù)據(jù)將會愈來愈昂貴，網(wǎng)絡(luò)走向碎片化和封閉化，內(nèi)容創(chuàng)作者將會竭盡全力防止其內(nèi)容被免費(fèi)抓取。

不難看出，高質(zhì)量數(shù)據(jù)的獲取會越來越難?！拔覀儸F(xiàn)在大部分的數(shù)據(jù)來源還是互聯(lián)網(wǎng)，下半年數(shù)據(jù)從哪來？我覺得這個(gè)很關(guān)鍵，最后大家會拼私有數(shù)據(jù)，或者你有我沒有的數(shù)據(jù)。”上海人工智能實(shí)驗(yàn)室青年科學(xué)家、OpenDataLab負(fù)責(zé)人何聰輝在2023世界人工智能大會上談到。

武超也對澎湃科技表示，接下來誰擁有更高質(zhì)量的數(shù)據(jù)，或是能產(chǎn)生源源不斷的高質(zhì)量數(shù)據(jù)，將成為效能提升的關(guān)鍵。

“以數(shù)據(jù)為中心”的困擾

何聰輝認(rèn)為，接下來整個(gè)模型研發(fā)的范式會慢慢從“以模型為中心”變成“以數(shù)據(jù)為中心”。但以數(shù)據(jù)為中心有一個(gè)困擾——缺乏標(biāo)準(zhǔn)，數(shù)據(jù)質(zhì)量的關(guān)鍵性常常被提及，但實(shí)際上目前很難有人說清楚什么才是好的數(shù)據(jù)質(zhì)量，標(biāo)準(zhǔn)是什么。

在實(shí)踐過程中，何聰輝也面臨這樣的問題，“我們在這個(gè)過程中的實(shí)踐方式是把數(shù)據(jù)拆細(xì)，越做越細(xì)，有每一個(gè)細(xì)分領(lǐng)域和細(xì)分主題，慢慢數(shù)據(jù)的質(zhì)量標(biāo)準(zhǔn)就提出來了。同時(shí)，光看數(shù)據(jù)不夠，還要看數(shù)據(jù)的背后，我們會結(jié)合數(shù)據(jù)和數(shù)據(jù)對應(yīng)意向的模型效能提升，兩邊結(jié)合制定一套數(shù)據(jù)質(zhì)量迭代機(jī)制?！?/p>

去年，何聰輝所在的上海人工智能實(shí)驗(yàn)室發(fā)布人工智能開放數(shù)據(jù)平臺OpenDataLab，提供5500多個(gè)高質(zhì)量數(shù)據(jù)集，“但這僅僅停留在公開數(shù)據(jù)集的層面，我們希望數(shù)據(jù)交易所，以及前兩天成立的大規(guī)模語料數(shù)據(jù)聯(lián)盟，能夠給研究機(jī)構(gòu)和企業(yè)提供更好的數(shù)據(jù)流通方式?！?/p>

7月6日，在2023世界人工智能大會上，上海人工智能實(shí)驗(yàn)室、中國科學(xué)技術(shù)信息研究所、上海數(shù)據(jù)集團(tuán)、上海市數(shù)商協(xié)會、國家氣象中心以及中央廣播電視總臺、上海報(bào)業(yè)集團(tuán)等單位聯(lián)合發(fā)起的大模型語料數(shù)據(jù)聯(lián)盟宣布正式成立。

7月7日，上海數(shù)據(jù)交易所官網(wǎng)正式上線語料庫，累計(jì)掛牌近30個(gè)語料數(shù)據(jù)產(chǎn)品，包含文本、音頻、圖像等多模態(tài)，覆蓋金融、交通運(yùn)輸和醫(yī)療等領(lǐng)域。

但這樣的語料庫建設(shè)并非水到渠成?！澳芊裼写竽Ｐ推髽I(yè)所需的高質(zhì)量語料？目標(biāo)對象愿不愿意開放數(shù)據(jù)？”上海數(shù)據(jù)交易所總經(jīng)理湯奇峰在2023世界人工智能大會上談到，難度主要集中于開放程度和數(shù)據(jù)質(zhì)量兩方面。

韋志林分享道，對于數(shù)據(jù)的供給，現(xiàn)在面臨很多挑戰(zhàn)，頭部廠商不愿意開放數(shù)據(jù)，同時(shí)，大家也擔(dān)心數(shù)據(jù)在共享過程中的安全機(jī)制問題。還有一個(gè)重要問題，數(shù)據(jù)開放流通的收益分配機(jī)制也還存在疑問。

具體而言，數(shù)據(jù)共享要解決3個(gè)問題。上海零數(shù)科技有限公司創(chuàng)始人兼CEO林樂對澎湃科技解釋，一是數(shù)據(jù)容易造假，要保證數(shù)據(jù)真實(shí)可信。二是數(shù)據(jù)容易復(fù)制，這就意味著權(quán)屬關(guān)系不清晰，需要區(qū)塊鏈進(jìn)行確權(quán)和授權(quán)使用。三是容易泄露隱私，可以用區(qū)塊鏈結(jié)合隱私計(jì)算技術(shù)，讓數(shù)據(jù)做到可用不可見。

如何解決收益分配

湯奇峰指出，針對數(shù)據(jù)質(zhì)量高但開放程度低的供方，可以通過數(shù)據(jù)交易鏈有效破解語料數(shù)據(jù)流通的信任問題，“核心之一在于產(chǎn)權(quán)和參與大模型后的收益分配問題。”

清華大學(xué)交叉信息核心技術(shù)研究院常務(wù)副院長林常樂正在設(shè)計(jì)一個(gè)數(shù)據(jù)如何定價(jià)和分配收益的理論體系。

“某種程度上，像ChatGPT可能幾個(gè)月就免費(fèi)使用了人類很多知識。我們看到大模型可以學(xué)習(xí)一些作家的文章，寫出同樣風(fēng)格的文章，或生成梵高的畫，但它無需為此付費(fèi)，這些數(shù)據(jù)來源的主體也沒有由此獲得收益。”林常樂在2023世界人工智能大會上談到，所以目前可能存在一種比較激進(jìn)的觀點(diǎn)：大模型時(shí)代知識產(chǎn)權(quán)不存在了，或者說傳統(tǒng)的知識產(chǎn)權(quán)保護(hù)不存在了。

但林常樂認(rèn)為，大模型時(shí)代后知識產(chǎn)權(quán)保護(hù)會發(fā)展到對數(shù)據(jù)的確權(quán)、定價(jià)和交易。“當(dāng)大模型發(fā)展走向更深度，比如行業(yè)大模型，其所需的數(shù)據(jù)就不是互聯(lián)網(wǎng)免費(fèi)公開的數(shù)據(jù)了，要訓(xùn)練出精度極高的的模型，需要的是行業(yè)專業(yè)知識，甚至商業(yè)機(jī)密類型的知識。要讓大家貢獻(xiàn)這樣的語料庫，肯定需要有一種權(quán)益分配機(jī)制?！?/p>

林常樂現(xiàn)在在做的“數(shù)據(jù)資產(chǎn)圖譜”，是用數(shù)學(xué)證明出來一套收益分配的機(jī)制，將數(shù)據(jù)權(quán)益進(jìn)行公平的分配。

如何解決數(shù)據(jù)流通

工信部賽迪研究院副總工程師、俄羅斯自然科學(xué)院外籍院士劉權(quán)在WAIC“數(shù)實(shí)融合，智領(lǐng)未來”產(chǎn)業(yè)區(qū)塊鏈生態(tài)論壇上提到，最近北京版“數(shù)據(jù)二十條”在業(yè)界產(chǎn)生了非常大的反響，它解決了數(shù)據(jù)流通過程中的核心問題。最明顯的是，政務(wù)的數(shù)據(jù)歸誰的問題明確了——公共數(shù)據(jù)歸政府所有。那么企業(yè)的數(shù)據(jù)、個(gè)人的數(shù)據(jù)呢？“可以委托北京市數(shù)據(jù)交易所進(jìn)行委托經(jīng)營?！?/p>

7月5日，中共北京市委、北京市人民政府印發(fā)《關(guān)于更好發(fā)揮數(shù)據(jù)要素作用進(jìn)一步加快發(fā)展數(shù)字經(jīng)濟(jì)的實(shí)施意見》的通知?！秾?shí)施意見》分為九部分，從數(shù)據(jù)產(chǎn)權(quán)、流通交易、收益分配、安全治理等方面構(gòu)建數(shù)據(jù)基礎(chǔ)制度，共提出23條具體要求，被業(yè)內(nèi)稱為北京版“數(shù)據(jù)二十條”。

“在國內(nèi)來看，據(jù)統(tǒng)計(jì)，數(shù)據(jù)資源80%集中在公共和政府事業(yè)單位。我們要解決數(shù)據(jù)的供給，很大程度上也是希望基于數(shù)據(jù)二十條（《中共中央、國務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》）對公共數(shù)據(jù)的開放共享，能夠形成一套可復(fù)制的機(jī)制和范式，來促進(jìn)形成于公共事業(yè)的的數(shù)據(jù)，再服務(wù)于公共?！表f志林說。

韋志林表示，按照現(xiàn)在的統(tǒng)計(jì)，中國全社會的數(shù)據(jù)資源存量排在全球第二，但這些數(shù)據(jù)分散在各個(gè)地方。根據(jù)國家信息中心數(shù)字中國研究院副院長展鈺堡7月7日在2023世界人工智能大會上的梳理，中國目前的全國化數(shù)據(jù)流通體系包括：有兩個(gè)數(shù)據(jù)交易所，一個(gè)是上海數(shù)據(jù)交易所，一個(gè)是深圳數(shù)據(jù)交易所；在國內(nèi)還有17家數(shù)據(jù)交易中心，包含北京數(shù)據(jù)交易中心。