欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

  • +1

觀察|大模型潮即將耗盡全宇宙文本,高質(zhì)量數(shù)據(jù)從哪里來?

澎湃新聞?dòng)浾?邵文
2023-07-17 07:52
來源:澎湃新聞
? 未來2% >
聽全文
字號

·專家警告,ChatGPT等人工智能驅(qū)動(dòng)的機(jī)器人可能很快就會“耗盡宇宙中的文本”。同時(shí),用AI生成的數(shù)據(jù)“反哺”AI或造成模型崩潰。未來模型訓(xùn)練使用的高質(zhì)量數(shù)據(jù)可能會愈來愈昂貴,網(wǎng)絡(luò)走向碎片化和封閉化。

·“當(dāng)大模型發(fā)展走向更深度,比如行業(yè)大模型,所需的數(shù)據(jù)就不是互聯(lián)網(wǎng)免費(fèi)公開的數(shù)據(jù)了,要訓(xùn)練出精度極高的的模型,需要的是行業(yè)專業(yè)知識,甚至商業(yè)機(jī)密類型的知識。要讓大家貢獻(xiàn)這樣的語料庫,肯定需要有一種權(quán)益分配機(jī)制?!?/span>

作為人工智能基礎(chǔ)設(shè)施的“三駕馬車”之一,數(shù)據(jù)的重要性一直不言而喻。隨著大語言模型熱潮進(jìn)入高峰期,業(yè)界對數(shù)據(jù)的關(guān)注度前所未有。

7月初,加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)教授、《人工智能——現(xiàn)代方法》作者斯圖爾特·羅素(Stuart Russell)發(fā)出警告稱,ChatGPT等人工智能驅(qū)動(dòng)的機(jī)器人可能很快就會“耗盡宇宙中的文本”,通過收集大量文本來訓(xùn)練機(jī)器人的技術(shù)“開始遇到困難”。研究機(jī)構(gòu)Epoch估計(jì),機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會在2026年前耗盡所有“高質(zhì)量語言數(shù)據(jù)”。

“數(shù)據(jù)質(zhì)量和數(shù)據(jù)量將是下一階段大模型能力涌現(xiàn)關(guān)鍵中的關(guān)鍵?!敝行胖菐鞂<椅瘑T會主任、中信建投證券研究所所長武超在2023世界人工智能大會(WAIC)上分享了一個(gè)測算,“未來一個(gè)模型的好壞,20%由算法決定,80%由數(shù)據(jù)質(zhì)量決定。接下來高質(zhì)量的數(shù)據(jù)將是提升模型性能的關(guān)鍵?!?/p>

然而,高質(zhì)量數(shù)據(jù)從哪里來?目前,數(shù)據(jù)行業(yè)仍然面臨多項(xiàng)亟待解決的問題,比如數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)是什么,如何促進(jìn)數(shù)據(jù)分享和流通,如何設(shè)計(jì)定價(jià)和分配收益體系。

高質(zhì)量數(shù)據(jù)告急

上海數(shù)據(jù)交易所副總經(jīng)理韋志林7月8日在接受澎湃科技(www.xinlihui.cn)在內(nèi)的媒體采訪時(shí)表示,在數(shù)據(jù)、算力、算法“三駕馬車”里,數(shù)據(jù)是最核心、最長遠(yuǎn)、最基礎(chǔ)性的要素。

大型語言模型(LLM)有如今令人驚艷的表現(xiàn),背后的機(jī)制被概括為“智能涌現(xiàn)”,簡單理解的話,就是以前沒教過AI的技能它現(xiàn)在也會了。而大量的數(shù)據(jù)集是“智能涌現(xiàn)”的重要基礎(chǔ)。

大型語言模型是具有數(shù)十億到數(shù)萬億參數(shù)的深度神經(jīng)網(wǎng)絡(luò),被“預(yù)訓(xùn)練”于數(shù)TB(Terabytes,1TB=1024GB)的巨大自然語言語料庫上,包括結(jié)構(gòu)化數(shù)據(jù)、在線圖書和其他內(nèi)容。中電金信研究院副院長單海軍在2023世界人工智能大會期間對澎湃科技表示,大模型本質(zhì)上是概率生成模型,其核心亮點(diǎn)在于能理解(上下文提示學(xué)習(xí))、能推理(思維鏈)和有價(jià)值觀(人類反饋強(qiáng)化學(xué)習(xí))。ChatGPT比較大的突破是在GPT-3出現(xiàn)時(shí),大概1750億參數(shù)量,數(shù)據(jù)量為45個(gè)TB。

2018年到2022年初從GPT-1到Gopher的精選語言模型的所有數(shù)據(jù)集的綜合視圖。未加權(quán)大小,以GB為單位。圖源:Alan D. Thompson

“OpenAI一直以來努力的方向都是尋求更多的優(yōu)質(zhì)數(shù)據(jù),深度解析已有的數(shù)據(jù),從而使自己的能力越來越強(qiáng)大?!?月12日,復(fù)旦大學(xué)教授、上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任肖仰華對澎湃科技表示,“獲取大規(guī)模、高質(zhì)量、多樣性的數(shù)據(jù),并深入解析這些數(shù)據(jù),可能是推動(dòng)大模型發(fā)展的重要思路之一?!?/p>

然而,高質(zhì)量數(shù)據(jù)正在告急。

人工智能研究人員小組Epoch去年11月進(jìn)行的一項(xiàng)研究估計(jì),機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會在2026年前耗盡所有“高質(zhì)量語言數(shù)據(jù)”。而這項(xiàng)研究發(fā)布時(shí)全球范圍內(nèi)的大模型潮還沒有出現(xiàn)。根據(jù)該研究,“高質(zhì)量”集中的語言數(shù)據(jù)來自“書籍、新聞文章、科學(xué)論文、維基百科和過濾的網(wǎng)絡(luò)內(nèi)容”。

與此同時(shí),OpenAI等生成式AI開發(fā)機(jī)構(gòu)為訓(xùn)練大型語言模型而進(jìn)行的數(shù)據(jù)收集行為也越來越受爭議。6月底,OpenAI遭集體訴訟,被指竊取“大量個(gè)人數(shù)據(jù)”來訓(xùn)練ChatGPT。包括Reddit和推特在內(nèi)的社交媒體對其平臺數(shù)據(jù)被隨意使用表示不滿,馬斯克7月1日以此理由對推特的閱讀條數(shù)實(shí)行了臨時(shí)限制。

7月12日,羅素在接受科技財(cái)經(jīng)媒體Insider的采訪時(shí)表示,許多報(bào)道雖然未經(jīng)證實(shí),但都詳細(xì)說明了OpenAI從私人來源購買了文本數(shù)據(jù)集。雖然這種購買有各種可能的解釋,但“自然的推論是沒有足夠的高質(zhì)量公共數(shù)據(jù)。”

有專家提出,或許在數(shù)據(jù)耗盡前會出現(xiàn)新的解決辦法。比如,可以讓大模型自己持續(xù)生成新數(shù)據(jù),然后經(jīng)過某種質(zhì)量過濾,反過來再用于訓(xùn)練模型,這被稱為自我學(xué)習(xí)或“反哺”。但是,根據(jù)牛津大學(xué)、劍橋大學(xué)、倫敦帝國學(xué)院等機(jī)構(gòu)的研究人員今年5月在預(yù)印本平臺arXiv上發(fā)表的論文,AI用AI生成的數(shù)據(jù)進(jìn)行訓(xùn)練,會導(dǎo)致AI模型存在不可逆轉(zhuǎn)的缺陷,他們將其稱之為模型崩潰(Model Collapse)。這意味著未來模型訓(xùn)練使用的高質(zhì)量數(shù)據(jù)將會愈來愈昂貴,網(wǎng)絡(luò)走向碎片化和封閉化,內(nèi)容創(chuàng)作者將會竭盡全力防止其內(nèi)容被免費(fèi)抓取。

不難看出,高質(zhì)量數(shù)據(jù)的獲取會越來越難?!拔覀儸F(xiàn)在大部分的數(shù)據(jù)來源還是互聯(lián)網(wǎng),下半年數(shù)據(jù)從哪來?我覺得這個(gè)很關(guān)鍵,最后大家會拼私有數(shù)據(jù),或者你有我沒有的數(shù)據(jù)。”上海人工智能實(shí)驗(yàn)室青年科學(xué)家、OpenDataLab負(fù)責(zé)人何聰輝在2023世界人工智能大會上談到。

武超也對澎湃科技表示,接下來誰擁有更高質(zhì)量的數(shù)據(jù),或是能產(chǎn)生源源不斷的高質(zhì)量數(shù)據(jù),將成為效能提升的關(guān)鍵。

“以數(shù)據(jù)為中心”的困擾

何聰輝認(rèn)為,接下來整個(gè)模型研發(fā)的范式會慢慢從“以模型為中心”變成“以數(shù)據(jù)為中心”。但以數(shù)據(jù)為中心有一個(gè)困擾——缺乏標(biāo)準(zhǔn),數(shù)據(jù)質(zhì)量的關(guān)鍵性常常被提及,但實(shí)際上目前很難有人說清楚什么才是好的數(shù)據(jù)質(zhì)量,標(biāo)準(zhǔn)是什么。

在實(shí)踐過程中,何聰輝也面臨這樣的問題,“我們在這個(gè)過程中的實(shí)踐方式是把數(shù)據(jù)拆細(xì),越做越細(xì),有每一個(gè)細(xì)分領(lǐng)域和細(xì)分主題,慢慢數(shù)據(jù)的質(zhì)量標(biāo)準(zhǔn)就提出來了。同時(shí),光看數(shù)據(jù)不夠,還要看數(shù)據(jù)的背后,我們會結(jié)合數(shù)據(jù)和數(shù)據(jù)對應(yīng)意向的模型效能提升,兩邊結(jié)合制定一套數(shù)據(jù)質(zhì)量迭代機(jī)制?!?/p>

去年,何聰輝所在的上海人工智能實(shí)驗(yàn)室發(fā)布人工智能開放數(shù)據(jù)平臺OpenDataLab,提供5500多個(gè)高質(zhì)量數(shù)據(jù)集,“但這僅僅停留在公開數(shù)據(jù)集的層面,我們希望數(shù)據(jù)交易所,以及前兩天成立的大規(guī)模語料數(shù)據(jù)聯(lián)盟,能夠給研究機(jī)構(gòu)和企業(yè)提供更好的數(shù)據(jù)流通方式?!?/p>

7月6日,在2023世界人工智能大會上,上海人工智能實(shí)驗(yàn)室、中國科學(xué)技術(shù)信息研究所、上海數(shù)據(jù)集團(tuán)、上海市數(shù)商協(xié)會、國家氣象中心以及中央廣播電視總臺、上海報(bào)業(yè)集團(tuán)等單位聯(lián)合發(fā)起的大模型語料數(shù)據(jù)聯(lián)盟宣布正式成立。

7月7日,上海數(shù)據(jù)交易所官網(wǎng)正式上線語料庫,累計(jì)掛牌近30個(gè)語料數(shù)據(jù)產(chǎn)品,包含文本、音頻、圖像等多模態(tài),覆蓋金融、交通運(yùn)輸和醫(yī)療等領(lǐng)域。

但這樣的語料庫建設(shè)并非水到渠成?!澳芊裼写竽P推髽I(yè)所需的高質(zhì)量語料?目標(biāo)對象愿不愿意開放數(shù)據(jù)?”上海數(shù)據(jù)交易所總經(jīng)理湯奇峰在2023世界人工智能大會上談到,難度主要集中于開放程度和數(shù)據(jù)質(zhì)量兩方面。

韋志林分享道,對于數(shù)據(jù)的供給,現(xiàn)在面臨很多挑戰(zhàn),頭部廠商不愿意開放數(shù)據(jù),同時(shí),大家也擔(dān)心數(shù)據(jù)在共享過程中的安全機(jī)制問題。還有一個(gè)重要問題,數(shù)據(jù)開放流通的收益分配機(jī)制也還存在疑問。

具體而言,數(shù)據(jù)共享要解決3個(gè)問題。上海零數(shù)科技有限公司創(chuàng)始人兼CEO林樂對澎湃科技解釋,一是數(shù)據(jù)容易造假,要保證數(shù)據(jù)真實(shí)可信。二是數(shù)據(jù)容易復(fù)制,這就意味著權(quán)屬關(guān)系不清晰,需要區(qū)塊鏈進(jìn)行確權(quán)和授權(quán)使用。三是容易泄露隱私,可以用區(qū)塊鏈結(jié)合隱私計(jì)算技術(shù),讓數(shù)據(jù)做到可用不可見。

如何解決收益分配

湯奇峰指出,針對數(shù)據(jù)質(zhì)量高但開放程度低的供方,可以通過數(shù)據(jù)交易鏈有效破解語料數(shù)據(jù)流通的信任問題,“核心之一在于產(chǎn)權(quán)和參與大模型后的收益分配問題。”

清華大學(xué)交叉信息核心技術(shù)研究院常務(wù)副院長林常樂正在設(shè)計(jì)一個(gè)數(shù)據(jù)如何定價(jià)和分配收益的理論體系。

“某種程度上,像ChatGPT可能幾個(gè)月就免費(fèi)使用了人類很多知識。我們看到大模型可以學(xué)習(xí)一些作家的文章,寫出同樣風(fēng)格的文章,或生成梵高的畫,但它無需為此付費(fèi),這些數(shù)據(jù)來源的主體也沒有由此獲得收益。”林常樂在2023世界人工智能大會上談到,所以目前可能存在一種比較激進(jìn)的觀點(diǎn):大模型時(shí)代知識產(chǎn)權(quán)不存在了,或者說傳統(tǒng)的知識產(chǎn)權(quán)保護(hù)不存在了。

但林常樂認(rèn)為,大模型時(shí)代后知識產(chǎn)權(quán)保護(hù)會發(fā)展到對數(shù)據(jù)的確權(quán)、定價(jià)和交易。“當(dāng)大模型發(fā)展走向更深度,比如行業(yè)大模型,其所需的數(shù)據(jù)就不是互聯(lián)網(wǎng)免費(fèi)公開的數(shù)據(jù)了,要訓(xùn)練出精度極高的的模型,需要的是行業(yè)專業(yè)知識,甚至商業(yè)機(jī)密類型的知識。要讓大家貢獻(xiàn)這樣的語料庫,肯定需要有一種權(quán)益分配機(jī)制?!?/p>

林常樂現(xiàn)在在做的“數(shù)據(jù)資產(chǎn)圖譜”,是用數(shù)學(xué)證明出來一套收益分配的機(jī)制,將數(shù)據(jù)權(quán)益進(jìn)行公平的分配。

如何解決數(shù)據(jù)流通

工信部賽迪研究院副總工程師、俄羅斯自然科學(xué)院外籍院士劉權(quán)在WAIC“數(shù)實(shí)融合,智領(lǐng)未來”產(chǎn)業(yè)區(qū)塊鏈生態(tài)論壇上提到,最近北京版“數(shù)據(jù)二十條”在業(yè)界產(chǎn)生了非常大的反響,它解決了數(shù)據(jù)流通過程中的核心問題。最明顯的是,政務(wù)的數(shù)據(jù)歸誰的問題明確了——公共數(shù)據(jù)歸政府所有。那么企業(yè)的數(shù)據(jù)、個(gè)人的數(shù)據(jù)呢?“可以委托北京市數(shù)據(jù)交易所進(jìn)行委托經(jīng)營?!?/p>

7月5日,中共北京市委、北京市人民政府印發(fā)《關(guān)于更好發(fā)揮數(shù)據(jù)要素作用進(jìn)一步加快發(fā)展數(shù)字經(jīng)濟(jì)的實(shí)施意見》的通知?!秾?shí)施意見》分為九部分,從數(shù)據(jù)產(chǎn)權(quán)、流通交易、收益分配、安全治理等方面構(gòu)建數(shù)據(jù)基礎(chǔ)制度,共提出23條具體要求,被業(yè)內(nèi)稱為北京版“數(shù)據(jù)二十條”。

“在國內(nèi)來看,據(jù)統(tǒng)計(jì),數(shù)據(jù)資源80%集中在公共和政府事業(yè)單位。我們要解決數(shù)據(jù)的供給,很大程度上也是希望基于數(shù)據(jù)二十條(《中共中央、國務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》)對公共數(shù)據(jù)的開放共享,能夠形成一套可復(fù)制的機(jī)制和范式,來促進(jìn)形成于公共事業(yè)的的數(shù)據(jù),再服務(wù)于公共?!表f志林說。

韋志林表示,按照現(xiàn)在的統(tǒng)計(jì),中國全社會的數(shù)據(jù)資源存量排在全球第二,但這些數(shù)據(jù)分散在各個(gè)地方。根據(jù)國家信息中心數(shù)字中國研究院副院長展鈺堡7月7日在2023世界人工智能大會上的梳理,中國目前的全國化數(shù)據(jù)流通體系包括:有兩個(gè)數(shù)據(jù)交易所,一個(gè)是上海數(shù)據(jù)交易所,一個(gè)是深圳數(shù)據(jù)交易所;在國內(nèi)還有17家數(shù)據(jù)交易中心,包含北京數(shù)據(jù)交易中心。

    責(zé)任編輯:鄭潔
    校對:張亮亮
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司