觀察｜大模型潮即將耗盡全宇宙文本，高質量數(shù)據(jù)從哪里來？

澎湃新聞記者邵文

2023-07-17 07:52

來源：澎湃新聞

聽全文

·專家警告，ChatGPT等人工智能驅動的機器人可能很快就會“耗盡宇宙中的文本”。同時，用AI生成的數(shù)據(jù)“反哺”AI或造成模型崩潰。未來模型訓練使用的高質量數(shù)據(jù)可能會愈來愈昂貴，網(wǎng)絡走向碎片化和封閉化。

·“當大模型發(fā)展走向更深度，比如行業(yè)大模型，所需的數(shù)據(jù)就不是互聯(lián)網(wǎng)免費公開的數(shù)據(jù)了，要訓練出精度極高的的模型，需要的是行業(yè)專業(yè)知識，甚至商業(yè)機密類型的知識。要讓大家貢獻這樣的語料庫，肯定需要有一種權益分配機制?！?/span>

作為人工智能基礎設施的“三駕馬車”之一，數(shù)據(jù)的重要性一直不言而喻。隨著大語言模型熱潮進入高峰期，業(yè)界對數(shù)據(jù)的關注度前所未有。

7月初，加州大學伯克利分校計算機科學教授、《人工智能——現(xiàn)代方法》作者斯圖爾特·羅素（Stuart Russell）發(fā)出警告稱，ChatGPT等人工智能驅動的機器人可能很快就會“耗盡宇宙中的文本”，通過收集大量文本來訓練機器人的技術“開始遇到困難”。研究機構Epoch估計，機器學習數(shù)據(jù)集可能會在2026年前耗盡所有“高質量語言數(shù)據(jù)”。

“數(shù)據(jù)質量和數(shù)據(jù)量將是下一階段大模型能力涌現(xiàn)關鍵中的關鍵?！敝行胖菐鞂＜椅瘑T會主任、中信建投證券研究所所長武超在2023世界人工智能大會（WAIC）上分享了一個測算，“未來一個模型的好壞，20%由算法決定，80%由數(shù)據(jù)質量決定。接下來高質量的數(shù)據(jù)將是提升模型性能的關鍵?！?/p>

然而，高質量數(shù)據(jù)從哪里來？目前，數(shù)據(jù)行業(yè)仍然面臨多項亟待解決的問題，比如數(shù)據(jù)質量的標準是什么，如何促進數(shù)據(jù)分享和流通，如何設計定價和分配收益體系。

高質量數(shù)據(jù)告急

上海數(shù)據(jù)交易所副總經(jīng)理韋志林7月8日在接受澎湃科技（www.xinlihui.cn）在內的媒體采訪時表示，在數(shù)據(jù)、算力、算法“三駕馬車”里，數(shù)據(jù)是最核心、最長遠、最基礎性的要素。

大型語言模型（LLM）有如今令人驚艷的表現(xiàn)，背后的機制被概括為“智能涌現(xiàn)”，簡單理解的話，就是以前沒教過AI的技能它現(xiàn)在也會了。而大量的數(shù)據(jù)集是“智能涌現(xiàn)”的重要基礎。

大型語言模型是具有數(shù)十億到數(shù)萬億參數(shù)的深度神經(jīng)網(wǎng)絡，被“預訓練”于數(shù)TB（Terabytes，1TB=1024GB）的巨大自然語言語料庫上，包括結構化數(shù)據(jù)、在線圖書和其他內容。中電金信研究院副院長單海軍在2023世界人工智能大會期間對澎湃科技表示，大模型本質上是概率生成模型，其核心亮點在于能理解（上下文提示學習）、能推理（思維鏈）和有價值觀（人類反饋強化學習）。ChatGPT比較大的突破是在GPT-3出現(xiàn)時，大概1750億參數(shù)量，數(shù)據(jù)量為45個TB。

2018年到2022年初從GPT-1到Gopher的精選語言模型的所有數(shù)據(jù)集的綜合視圖。未加權大小，以GB為單位。圖源：Alan D. Thompson

“OpenAI一直以來努力的方向都是尋求更多的優(yōu)質數(shù)據(jù)，深度解析已有的數(shù)據(jù)，從而使自己的能力越來越強大?！?月12日，復旦大學教授、上海市數(shù)據(jù)科學重點實驗室主任肖仰華對澎湃科技表示，“獲取大規(guī)模、高質量、多樣性的數(shù)據(jù)，并深入解析這些數(shù)據(jù)，可能是推動大模型發(fā)展的重要思路之一?！?/p>

然而，高質量數(shù)據(jù)正在告急。

人工智能研究人員小組Epoch去年11月進行的一項研究估計，機器學習數(shù)據(jù)集可能會在2026年前耗盡所有“高質量語言數(shù)據(jù)”。而這項研究發(fā)布時全球范圍內的大模型潮還沒有出現(xiàn)。根據(jù)該研究，“高質量”集中的語言數(shù)據(jù)來自“書籍、新聞文章、科學論文、維基百科和過濾的網(wǎng)絡內容”。

與此同時，OpenAI等生成式AI開發(fā)機構為訓練大型語言模型而進行的數(shù)據(jù)收集行為也越來越受爭議。6月底，OpenAI遭集體訴訟，被指竊取“大量個人數(shù)據(jù)”來訓練ChatGPT。包括Reddit和推特在內的社交媒體對其平臺數(shù)據(jù)被隨意使用表示不滿，馬斯克7月1日以此理由對推特的閱讀條數(shù)實行了臨時限制。

7月12日，羅素在接受科技財經(jīng)媒體Insider的采訪時表示，許多報道雖然未經(jīng)證實，但都詳細說明了OpenAI從私人來源購買了文本數(shù)據(jù)集。雖然這種購買有各種可能的解釋，但“自然的推論是沒有足夠的高質量公共數(shù)據(jù)。”

有專家提出，或許在數(shù)據(jù)耗盡前會出現(xiàn)新的解決辦法。比如，可以讓大模型自己持續(xù)生成新數(shù)據(jù)，然后經(jīng)過某種質量過濾，反過來再用于訓練模型，這被稱為自我學習或“反哺”。但是，根據(jù)牛津大學、劍橋大學、倫敦帝國學院等機構的研究人員今年5月在預印本平臺arXiv上發(fā)表的論文，AI用AI生成的數(shù)據(jù)進行訓練，會導致AI模型存在不可逆轉的缺陷，他們將其稱之為模型崩潰（Model Collapse）。這意味著未來模型訓練使用的高質量數(shù)據(jù)將會愈來愈昂貴，網(wǎng)絡走向碎片化和封閉化，內容創(chuàng)作者將會竭盡全力防止其內容被免費抓取。

不難看出，高質量數(shù)據(jù)的獲取會越來越難?！拔覀儸F(xiàn)在大部分的數(shù)據(jù)來源還是互聯(lián)網(wǎng)，下半年數(shù)據(jù)從哪來？我覺得這個很關鍵，最后大家會拼私有數(shù)據(jù)，或者你有我沒有的數(shù)據(jù)?！鄙虾Ｈ斯ぶ悄軐嶒炇仪嗄昕茖W家、OpenDataLab負責人何聰輝在2023世界人工智能大會上談到。

武超也對澎湃科技表示，接下來誰擁有更高質量的數(shù)據(jù)，或是能產生源源不斷的高質量數(shù)據(jù)，將成為效能提升的關鍵。

“以數(shù)據(jù)為中心”的困擾

何聰輝認為，接下來整個模型研發(fā)的范式會慢慢從“以模型為中心”變成“以數(shù)據(jù)為中心”。但以數(shù)據(jù)為中心有一個困擾——缺乏標準，數(shù)據(jù)質量的關鍵性常常被提及，但實際上目前很難有人說清楚什么才是好的數(shù)據(jù)質量，標準是什么。

在實踐過程中，何聰輝也面臨這樣的問題，“我們在這個過程中的實踐方式是把數(shù)據(jù)拆細，越做越細，有每一個細分領域和細分主題，慢慢數(shù)據(jù)的質量標準就提出來了。同時，光看數(shù)據(jù)不夠，還要看數(shù)據(jù)的背后，我們會結合數(shù)據(jù)和數(shù)據(jù)對應意向的模型效能提升，兩邊結合制定一套數(shù)據(jù)質量迭代機制?！?/p>

去年，何聰輝所在的上海人工智能實驗室發(fā)布人工智能開放數(shù)據(jù)平臺OpenDataLab，提供5500多個高質量數(shù)據(jù)集，“但這僅僅停留在公開數(shù)據(jù)集的層面，我們希望數(shù)據(jù)交易所，以及前兩天成立的大規(guī)模語料數(shù)據(jù)聯(lián)盟，能夠給研究機構和企業(yè)提供更好的數(shù)據(jù)流通方式?！?/p>

7月6日，在2023世界人工智能大會上，上海人工智能實驗室、中國科學技術信息研究所、上海數(shù)據(jù)集團、上海市數(shù)商協(xié)會、國家氣象中心以及中央廣播電視總臺、上海報業(yè)集團等單位聯(lián)合發(fā)起的大模型語料數(shù)據(jù)聯(lián)盟宣布正式成立。

7月7日，上海數(shù)據(jù)交易所官網(wǎng)正式上線語料庫，累計掛牌近30個語料數(shù)據(jù)產品，包含文本、音頻、圖像等多模態(tài)，覆蓋金融、交通運輸和醫(yī)療等領域。

但這樣的語料庫建設并非水到渠成。“能否有大模型企業(yè)所需的高質量語料？目標對象愿不愿意開放數(shù)據(jù)？”上海數(shù)據(jù)交易所總經(jīng)理湯奇峰在2023世界人工智能大會上談到，難度主要集中于開放程度和數(shù)據(jù)質量兩方面。

韋志林分享道，對于數(shù)據(jù)的供給，現(xiàn)在面臨很多挑戰(zhàn)，頭部廠商不愿意開放數(shù)據(jù)，同時，大家也擔心數(shù)據(jù)在共享過程中的安全機制問題。還有一個重要問題，數(shù)據(jù)開放流通的收益分配機制也還存在疑問。

具體而言，數(shù)據(jù)共享要解決3個問題。上海零數(shù)科技有限公司創(chuàng)始人兼CEO林樂對澎湃科技解釋，一是數(shù)據(jù)容易造假，要保證數(shù)據(jù)真實可信。二是數(shù)據(jù)容易復制，這就意味著權屬關系不清晰，需要區(qū)塊鏈進行確權和授權使用。三是容易泄露隱私，可以用區(qū)塊鏈結合隱私計算技術，讓數(shù)據(jù)做到可用不可見。

如何解決收益分配

湯奇峰指出，針對數(shù)據(jù)質量高但開放程度低的供方，可以通過數(shù)據(jù)交易鏈有效破解語料數(shù)據(jù)流通的信任問題，“核心之一在于產權和參與大模型后的收益分配問題。”

清華大學交叉信息核心技術研究院常務副院長林常樂正在設計一個數(shù)據(jù)如何定價和分配收益的理論體系。

“某種程度上，像ChatGPT可能幾個月就免費使用了人類很多知識。我們看到大模型可以學習一些作家的文章，寫出同樣風格的文章，或生成梵高的畫，但它無需為此付費，這些數(shù)據(jù)來源的主體也沒有由此獲得收益。”林常樂在2023世界人工智能大會上談到，所以目前可能存在一種比較激進的觀點：大模型時代知識產權不存在了，或者說傳統(tǒng)的知識產權保護不存在了。

但林常樂認為，大模型時代后知識產權保護會發(fā)展到對數(shù)據(jù)的確權、定價和交易?！爱敶竽Ｐ桶l(fā)展走向更深度，比如行業(yè)大模型，其所需的數(shù)據(jù)就不是互聯(lián)網(wǎng)免費公開的數(shù)據(jù)了，要訓練出精度極高的的模型，需要的是行業(yè)專業(yè)知識，甚至商業(yè)機密類型的知識。要讓大家貢獻這樣的語料庫，肯定需要有一種權益分配機制?！?/p>

林常樂現(xiàn)在在做的“數(shù)據(jù)資產圖譜”，是用數(shù)學證明出來一套收益分配的機制，將數(shù)據(jù)權益進行公平的分配。

如何解決數(shù)據(jù)流通

工信部賽迪研究院副總工程師、俄羅斯自然科學院外籍院士劉權在WAIC“數(shù)實融合，智領未來”產業(yè)區(qū)塊鏈生態(tài)論壇上提到，最近北京版“數(shù)據(jù)二十條”在業(yè)界產生了非常大的反響，它解決了數(shù)據(jù)流通過程中的核心問題。最明顯的是，政務的數(shù)據(jù)歸誰的問題明確了——公共數(shù)據(jù)歸政府所有。那么企業(yè)的數(shù)據(jù)、個人的數(shù)據(jù)呢？“可以委托北京市數(shù)據(jù)交易所進行委托經(jīng)營。”

7月5日，中共北京市委、北京市人民政府印發(fā)《關于更好發(fā)揮數(shù)據(jù)要素作用進一步加快發(fā)展數(shù)字經(jīng)濟的實施意見》的通知?！秾嵤┮庖姟贩譃榫挪糠?，從數(shù)據(jù)產權、流通交易、收益分配、安全治理等方面構建數(shù)據(jù)基礎制度，共提出23條具體要求，被業(yè)內稱為北京版“數(shù)據(jù)二十條”。

“在國內來看，據(jù)統(tǒng)計，數(shù)據(jù)資源80%集中在公共和政府事業(yè)單位。我們要解決數(shù)據(jù)的供給，很大程度上也是希望基于數(shù)據(jù)二十條（《中共中央、國務院關于構建數(shù)據(jù)基礎制度更好發(fā)揮數(shù)據(jù)要素作用的意見》）對公共數(shù)據(jù)的開放共享，能夠形成一套可復制的機制和范式，來促進形成于公共事業(yè)的的數(shù)據(jù)，再服務于公共。”韋志林說。

韋志林表示，按照現(xiàn)在的統(tǒng)計，中國全社會的數(shù)據(jù)資源存量排在全球第二，但這些數(shù)據(jù)分散在各個地方。根據(jù)國家信息中心數(shù)字中國研究院副院長展鈺堡7月7日在2023世界人工智能大會上的梳理，中國目前的全國化數(shù)據(jù)流通體系包括：有兩個數(shù)據(jù)交易所，一個是上海數(shù)據(jù)交易所，一個是深圳數(shù)據(jù)交易所；在國內還有17家數(shù)據(jù)交易中心，包含北京數(shù)據(jù)交易中心。