- +1
國(guó)際統(tǒng)計(jì)學(xué)會(huì)候任主席:ChatGPT等大模型非常依賴數(shù)據(jù)質(zhì)量,要大家聯(lián)手

何旭銘 澎湃新聞?dòng)浾?周頔 攝
近期ChatGPT等人工智能火爆出圈,人工智能需要對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,數(shù)據(jù)質(zhì)量一定程度上決定了AI水平。對(duì)于AI等新科技領(lǐng)域的數(shù)據(jù)使用與監(jiān)管,應(yīng)有怎樣的考慮?
4月26日,在第四屆聯(lián)合國(guó)世界數(shù)據(jù)論壇期間,國(guó)際統(tǒng)計(jì)學(xué)會(huì)(ISI) 候任主席、密歇根大學(xué)統(tǒng)計(jì)系教授何旭銘接受澎湃新聞(www.xinlihui.cn)記者采訪時(shí)表示,像ChatGPT這樣的人工智能模型需要大量的數(shù)據(jù),通過高效的算法得出結(jié)果,實(shí)際還是非常依賴數(shù)據(jù)本身的質(zhì)量以及全面性的。當(dāng)前,全世界關(guān)于數(shù)據(jù)問題的討論越來越多,大家都逐漸意識(shí)到,要得到好的結(jié)果,必須在每一個(gè)環(huán)節(jié)都要做好,而且大家聯(lián)手。
“我們要知道數(shù)據(jù)是怎么來的,如果數(shù)據(jù)只是從一個(gè)地方來,不具有更多代表性,就算把這些數(shù)據(jù)全部用上,所得到的結(jié)論不一定對(duì)所有人都合適?!焙涡胥懕硎?,數(shù)據(jù)的生產(chǎn)最好要具有代表性,如果在并不完全有代表性的情況下,也要弄清楚數(shù)據(jù)里面對(duì)哪些人采樣比較多,哪些人采樣比較少,在分析階段要把這些情況進(jìn)行調(diào)整,這也涉到數(shù)據(jù)設(shè)計(jì)和分析方法的更新與發(fā)展,多方面結(jié)合才能夠保證最后得到的結(jié)論更加智能,更加準(zhǔn)確。
數(shù)據(jù)本是微觀個(gè)體行為形成的,隨著數(shù)據(jù)集約,價(jià)值也就顯現(xiàn)了出來。但針對(duì)數(shù)據(jù)權(quán)利的歸屬,歷來有不同主張的爭(zhēng)論,一定程度上影響了數(shù)據(jù)開發(fā)利用。該如何看待數(shù)據(jù)權(quán)利的歸屬問題?
談到這個(gè)問題,何旭銘表示,最好的情況是所有的數(shù)據(jù)都能夠?qū)崿F(xiàn)共享?!皵?shù)據(jù)就人一樣,同一個(gè)人,不同的人去看得到不同的結(jié)論是,同一個(gè)人去看的時(shí)間不同,角度也不一樣,所以數(shù)據(jù)共享會(huì)讓更多的人來研究數(shù)據(jù),能去挖掘數(shù)據(jù)里面挖掘潛力和知識(shí)。”
然而,這種理想的情況并不容易實(shí)現(xiàn),現(xiàn)實(shí)中數(shù)據(jù)共享、共治面臨重重阻力。何旭銘指出,包括政府、企業(yè)在內(nèi)的不同數(shù)據(jù)擁有者會(huì)有自身利益的不同考量,政府或會(huì)更加在意國(guó)家安全問題,企業(yè)的數(shù)據(jù)可能會(huì)包含隱私和商業(yè)利益。何旭銘建議,應(yīng)該建立一個(gè)公共的共享信息平臺(tái),除了敏感信息,其他數(shù)據(jù)都可以進(jìn)行共享,并說明所共享數(shù)據(jù)與原始數(shù)據(jù)的區(qū)別,這樣能讓使用者在不掌握原始數(shù)據(jù)的情況下也能對(duì)數(shù)據(jù)進(jìn)行利用,從數(shù)據(jù)挖掘知識(shí)也就更加容易了。
在確保統(tǒng)計(jì)數(shù)據(jù)真實(shí)性方面,何旭銘建議,一方面在采集時(shí)要有一定的投資來保障準(zhǔn)確性。另一方面在采集數(shù)據(jù)和分析數(shù)據(jù)過程中要進(jìn)行相互制約的交叉驗(yàn)證。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




