- +1
Sora理解物理世界嗎?肖仰華、傅盛說(shuō)法也不一
·視頻大模型Sora一經(jīng)登場(chǎng),逼真的視頻呈現(xiàn)讓全球科技圈沸騰。Sora背后的技術(shù)架構(gòu)是怎樣的,它的出現(xiàn)是否意味著AGI進(jìn)程從10年變成了1年?Sora到底有沒(méi)有理解物理世界的能力?以Sora為代表的AI技術(shù)將如何影響人類(lèi)社會(huì)?我們又將如何應(yīng)對(duì)?
2月20日,澎湃新聞邀請(qǐng)復(fù)旦大學(xué)教授、上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任肖仰華,獵豹移動(dòng)董事長(zhǎng)兼CEO、獵戶星空董事長(zhǎng)傅盛,全國(guó)政協(xié)委員、上??萍拣^館長(zhǎng)倪閩景,做客澎湃新聞直播室,共同探討有關(guān)Sora的熱點(diǎn)話題。以下節(jié)選自直播實(shí)錄。
Sora的出現(xiàn)在意料之中也在意料之外
澎湃新聞?dòng)浾咄跞穑ㄒ韵潞?jiǎn)稱(chēng)王):三位看到Sora生成的視頻后,第一感受是怎樣的?
肖仰華(以下簡(jiǎn)稱(chēng)肖):意料之中也意料之外。
所謂意料之中,是因?yàn)镃hatGPT誕生之后,業(yè)內(nèi)專(zhuān)家都普遍預(yù)測(cè)大模型一定會(huì)從純文本的大模型向多模態(tài)發(fā)展。所謂多模態(tài)指的是圖文混合、和視頻相結(jié)合的這類(lèi)大模型。
意料之外是指當(dāng)你親眼看到了Sora生成的視頻具備如此的逼真度,沖擊力還是很激烈的。它對(duì)模擬物理世界的逼真程度,達(dá)到了空前的水平,是之前人工智能技術(shù)從來(lái)沒(méi)有做到過(guò)的。
因?yàn)樗峭耆谟脭?shù)據(jù)喂養(yǎng)出來(lái)的大模型生成的,不再是通過(guò)包括建模、渲染等傳統(tǒng)的電影工業(yè)技術(shù)做出來(lái)的,所以我認(rèn)為它可能會(huì)帶來(lái)非常深遠(yuǎn)的影響,它實(shí)際上代表的是人工智能對(duì)現(xiàn)實(shí)物理世界的模擬達(dá)到了一個(gè)全新的高度。它會(huì)帶來(lái)一系列的產(chǎn)業(yè)影響,可能對(duì)整個(gè)人類(lèi)社會(huì)包括教育都會(huì)帶來(lái)非常深遠(yuǎn)的影響。
倪閩景(以下簡(jiǎn)稱(chēng)倪): Sora生成的視頻中,很好地把握了人與人、人與物之間微妙的關(guān)聯(lián),這也是過(guò)去很多生成式視頻做不到的,所以令人非常震驚。
傅盛(以下簡(jiǎn)稱(chēng)傅):Sora的視頻就效果來(lái)說(shuō)是非常震驚的,它超出了我們對(duì)這個(gè)行業(yè)當(dāng)前的認(rèn)知。OpenAI作為一家科技企業(yè),市場(chǎng)宣傳方面的能力也是超一流的。他們選擇放出來(lái)的每個(gè)視頻,幾乎都是今天視頻制作市場(chǎng)上的難點(diǎn)和熱點(diǎn),很多都是用傳統(tǒng)建模方法做視頻難以企及的。譬如幾只小狗在玩雪花的視頻,對(duì)于傳統(tǒng)技術(shù)來(lái)說(shuō),雪花是最難制作的。
“相比ChatGPT,Sora技術(shù)突破有限 ”
王:Sora也是OpenAI的產(chǎn)品,它和之前的ChatGPT有何聯(lián)系?
肖:ChatGPT和Sora都使用了Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu),本質(zhì)上是一種大模型。這樣一種大模型為何會(huì)帶來(lái)這么好的效果呢?
因?yàn)槭澜绫举|(zhì)上是非常復(fù)雜的,非線性的。我們傳統(tǒng)的模型只能建一些線性的簡(jiǎn)單關(guān)系。像這個(gè)流體力學(xué)之類(lèi)非常復(fù)雜的現(xiàn)象,用傳統(tǒng)的模型非常難建模。但是今天我們看到基于Transformer深度神經(jīng)網(wǎng)絡(luò)的大模型架構(gòu),Sora已經(jīng)具備了對(duì)現(xiàn)實(shí)世界復(fù)雜現(xiàn)象非常逼真的建模能力,這是Sora帶來(lái)的一個(gè)新高度。
傅:現(xiàn)在我冷靜下來(lái)再想想,當(dāng)然也去看了很多文獻(xiàn),我又覺(jué)得Sora這個(gè)事本質(zhì)上是因?yàn)橐曨l是一個(gè)需求很旺盛的巨大行業(yè),才造就了熱潮。從技術(shù)上來(lái)說(shuō),我現(xiàn)在的觀點(diǎn)是它沒(méi)有那么大的突破。
其實(shí)如果深入分析下去,你會(huì)看到Sora是使用了跟以前完全不同的一條路徑去構(gòu)造了一個(gè)世界,它更像我們?nèi)说谋灸苷J(rèn)知。很多傳統(tǒng)做視頻建模很麻煩的事,可能對(duì)于它來(lái)說(shuō)并沒(méi)有那么難??赡軐?duì)于它來(lái)說(shuō),生成水面的倒影、眼鏡的反光和生成雞蛋的畫(huà)面,難度是一樣的,它是一種直覺(jué)認(rèn)知。
我一直有個(gè)觀點(diǎn),就是事實(shí)上如果沒(méi)有大語(yǔ)言模型作為基座,今天Sora在視頻領(lǐng)域是不會(huì)產(chǎn)生這么大突破的。
我想表達(dá)的一個(gè)觀點(diǎn)是,其實(shí)語(yǔ)言對(duì)世界的認(rèn)知是遠(yuǎn)超視頻的,雖然視頻看起來(lái)更讓我們有直覺(jué)的沖動(dòng),但語(yǔ)言的抽象和邏輯是最難理解的。一旦語(yǔ)言對(duì)世界的描述建立以后,視頻的這種抽象和描述相對(duì)來(lái)說(shuō)是簡(jiǎn)單的。當(dāng)然,在工程角度,視頻可能因?yàn)閿?shù)據(jù)量更大,工程難度更高。但如果沒(méi)有大語(yǔ)言模型,今天視頻是做不到這個(gè)能力的。其實(shí)對(duì)圖像的理解是我們每個(gè)人的直覺(jué),其實(shí)我們做夢(mèng)就是一個(gè)還原世界的過(guò)程。
王:在Sora之前,也有很多公司做文生視頻,但時(shí)長(zhǎng)都比較短。Sora和他們的技術(shù)路線不一樣嗎?
傅:我一直有個(gè)觀點(diǎn),就是OpenAI能走到今天與其說(shuō)是技術(shù)積累的勝利,不如說(shuō)是技術(shù)信仰的勝利;與其說(shuō)是它有什么超牛的技術(shù),還不如說(shuō)它堅(jiān)持在別人不相信的道路上勇敢前行。
其實(shí)即便到前年之前,OpenAI在硅谷都不是一個(gè)被看好的公司。但它自成立之初就相信一件事:讓機(jī)器讀大量的文字,它就能理解語(yǔ)言,甚至理解世界。這件事其實(shí)以前大家都不相信,只有它相信,所以它就堅(jiān)定的去干,直到ChatGPT出來(lái)后,所有人突然發(fā)現(xiàn),原來(lái)可以做成這樣。ChatGPT的底層架構(gòu) transformers最早是谷歌發(fā)布的。
我覺(jué)得之所以會(huì)有Sora是因?yàn)樗麄兿嘈磐ㄟ^(guò)大語(yǔ)言模型的加持,能夠干到一個(gè)你想象不到的效果。
我覺(jué)得Sora和其它文生視頻的底層技術(shù)沒(méi)有本質(zhì)區(qū)別,可能沒(méi)有OpenAI這么堅(jiān)定而已。所以我想說(shuō)Sora的重大突破并不一定代表技術(shù)上的重大升級(jí),你更可以理解成是一個(gè)暴力美學(xué),因?yàn)橄嘈胚@事能成,所以投的資源比其他人大一百倍,可以不計(jì)成本投入。我相信這是巨大的算力和很多的嘗試最后試出來(lái)的。
沒(méi)有哪個(gè)技術(shù)會(huì)突然有一天從哪里冒出來(lái),那可能是我們讀武俠小說(shuō)讀多了,總覺(jué)得在深山老林里面有個(gè)人拿了本寶典,最后全世界都被他征服了。但技術(shù)的演進(jìn)不是這樣的,技術(shù)底層的差異化并沒(méi)有那么大。技術(shù)信仰使得他們?nèi)σ愿?,從而有了一個(gè)產(chǎn)品級(jí)的突破。
我判斷Sora不會(huì)是獨(dú)一無(wú)二的,很快文生視頻的行業(yè)都會(huì)從四秒、十秒變成六十秒,文生視頻會(huì)像雨后春筍一樣出來(lái)。
肖:我很贊同傅總剛才說(shuō)的,OpenAI的勝利本質(zhì)上是一種信仰的勝利,是對(duì)信仰的長(zhǎng)期堅(jiān)持的勝利。
歐洲近幾百年流行的虛無(wú)主義,認(rèn)為人類(lèi)對(duì)世界的認(rèn)知可能只是認(rèn)知世界的一種方式而已。我們已經(jīng)建立起來(lái)所有知識(shí)體系,可能不過(guò)就是人類(lèi)對(duì)世界的一種有限的認(rèn)識(shí)方式。
大模型的成功恰恰也證明了這一點(diǎn),我們完全可以用數(shù)據(jù)驅(qū)動(dòng)的方法讓機(jī)器學(xué)習(xí),它建立的對(duì)世界的建模和認(rèn)知,有可能遠(yuǎn)遠(yuǎn)超過(guò)我們?nèi)祟?lèi)對(duì)這個(gè)世界的認(rèn)知方式,所以我們?nèi)祟?lèi)可能不能太過(guò)自信。
最近楊立昆等專(zhuān)家指責(zé)Sora(編者注:楊立昆(Yann LeCun):圖靈獎(jiǎng)得主,Meta公司首席科學(xué)家、AI團(tuán)隊(duì)負(fù)責(zé)人。在他看來(lái),僅僅根據(jù)提示詞生成逼真視頻并不能代表一個(gè)模型理解了物理世界,生成視頻的過(guò)程與基于世界模型的因果預(yù)測(cè)完全不同。他認(rèn)為Sora并不能模擬物理世界,在社交平臺(tái)上發(fā)文稱(chēng) “這里存在‘巨大’的誤導(dǎo)?!保盍⒗ゴ淼氖侨祟?lèi)的意志,他覺(jué)得我們?nèi)耸怯凶饔玫?,我們?nèi)祟?lèi)專(zhuān)家所積累的這些知識(shí)經(jīng)驗(yàn),應(yīng)該在世界建模中扮演重要角色。但實(shí)際上我傾向于認(rèn)為Sora擺脫了專(zhuān)家所謂的一些知識(shí)干預(yù)后,可能是更接近世界本源的,更準(zhǔn)確的一種建模方式。
王:關(guān)于Sora對(duì)物理世界的理解與模擬,現(xiàn)在也有很多不同的觀點(diǎn),三位是怎么看?
肖:實(shí)際上以往我們認(rèn)為的理解都是以人為中心的,我們說(shuō)理解的主體都是人,如果你不承認(rèn)機(jī)器的主體地位的話,是談不上所謂的理解的。
但我們?nèi)祟?lèi)理解世界的結(jié)果也是為了表達(dá)世界,也是為了再去創(chuàng)造一個(gè)新的世界。像Sora這種工具,它能夠非常高精度的建模這個(gè)現(xiàn)實(shí)世界,可以視作一種理解能力。所以對(duì)機(jī)器而言,可能建模就是理解。
我們?nèi)祟?lèi)對(duì)這個(gè)世界重現(xiàn)都是通過(guò)一些簡(jiǎn)化的公式去重現(xiàn)的,但Sora可以非常高精度的重建整個(gè)物理世界。從這個(gè)意義上來(lái)講,它的建模水平可以說(shuō)是遠(yuǎn)超人類(lèi)水平。
倪:我覺(jué)得它至少理解了什么是人,什么是櫻花,什么是雪花,什么是街道,否則也不可能生成這些東西。但機(jī)器在表達(dá)時(shí),會(huì)按照它看到的、認(rèn)為的規(guī)律來(lái)生成,這有可能和我們平時(shí)看到的規(guī)律不一樣。因?yàn)槲覀內(nèi)擞^察東西也永遠(yuǎn)是片面的,我們所有的觀察只是局部。我看到你的前面,但看不到背面,看見(jiàn)了外面看不見(jiàn)里面。
傅:這個(gè)問(wèn)題在我腦海里這兩天也是激烈變化。雖然在感官上Sora生成的視頻非常驚艷,但在對(duì)世界的理解度上,我覺(jué)得它肯定是不如語(yǔ)言模型本身的。
我注意到一個(gè)細(xì)節(jié),其中有個(gè)中國(guó)舞龍視頻,如果你認(rèn)真看它后面的每一個(gè)中國(guó)字都不是中國(guó)字,它只是長(zhǎng)得像中國(guó)字的一個(gè)圖形。
所以我認(rèn)為Sora某種意義上一定是具備對(duì)世界的某種理解。但如果你說(shuō)它把整個(gè)物理世界復(fù)刻了,我覺(jué)得這肯定不是真實(shí)的。我認(rèn)為它對(duì)世界的理解還停留在比較初級(jí)的水平。就像一個(gè)五六歲的小孩,對(duì)世界的理解并不深,但畫(huà)圖方面是一個(gè)天才兒童。我認(rèn)為這也是電腦特性決定的,計(jì)算機(jī)的能力和人類(lèi)能力并不一樣,對(duì)我們來(lái)說(shuō)很難的事情對(duì)它來(lái)說(shuō)可能很簡(jiǎn)單,畫(huà)畫(huà)對(duì)計(jì)算機(jī)來(lái)說(shuō)就是一堆的像素點(diǎn)打出來(lái),這個(gè)色階正好符合你的審美。
所以我覺(jué)得僅以視頻本身去驚嘆Sora對(duì)物理世界的理解到了一個(gè)什么高度,這點(diǎn)我是絕對(duì)不認(rèn)同的,“AGI因此由十年變一年”,這個(gè)我也不認(rèn)同。
人才、數(shù)據(jù)、算力,國(guó)內(nèi)公司缺哪樣?
王:說(shuō)到大模型公司,國(guó)內(nèi)也涌現(xiàn)了非常多企業(yè),現(xiàn)在國(guó)內(nèi)的這個(gè)情況和大環(huán)境是怎么樣的?
肖:其實(shí)從ChatGPT開(kāi)始,很多人就問(wèn)為什么我們沒(méi)有率先推出這類(lèi)產(chǎn)品,總體上我們國(guó)內(nèi)的態(tài)勢(shì)應(yīng)該來(lái)講處于在跟隨學(xué)習(xí),差距如果能夠不拉大,已經(jīng)算是相當(dāng)不容易了,應(yīng)該說(shuō)是在努力地追趕。
大模型需要的無(wú)外乎就是人才、數(shù)據(jù)、算力,我倒不不認(rèn)為人才真的是我們的短板。大模型本質(zhì)上是一次工程創(chuàng)新,我們國(guó)家最不缺的就是工程人才,很多國(guó)外團(tuán)隊(duì)中也頻頻出現(xiàn)華人的身影,所以從人才來(lái)講,我不認(rèn)為我們有多大的劣勢(shì),我們的學(xué)生完全能勝任。
再來(lái)看數(shù)據(jù),當(dāng)然大家說(shuō)數(shù)據(jù)有這樣那樣的問(wèn)題,但我也不認(rèn)為數(shù)據(jù)是我們根本短板。我們可以集中力量辦大事,我們有數(shù)據(jù)要素市場(chǎng),也在推動(dòng)這個(gè)數(shù)據(jù)語(yǔ)料聯(lián)盟,只要齊聚人力就能把數(shù)據(jù)給治理好。
可能現(xiàn)在最直接的因素還是算力上面,Sora說(shuō)白了也是一個(gè)大力出奇跡的活,但我們現(xiàn)在算力跟不上,是一個(gè)明顯的短板。
另外,我認(rèn)為可能還有我們很缺的因素就是所謂的信心。我覺(jué)得可能?chē)?guó)內(nèi)對(duì)于AGI這條道路信心不足,對(duì)AGI理念的堅(jiān)持從文化上來(lái)講接受度不高。我們中國(guó)人還是強(qiáng)調(diào)經(jīng)濟(jì)務(wù)實(shí)啊,都喜歡跟哪個(gè)場(chǎng)景一結(jié)合就能夠去變現(xiàn),快速變現(xiàn)。但真正說(shuō)要靜下心來(lái)坐冷板凳,在一條很有風(fēng)險(xiǎn)的道路上做一個(gè)巨大的投入,我看到的還是很少。這本質(zhì)上還是一個(gè)信仰和信心的問(wèn)題。
傅:AI本質(zhì)上是個(gè)平權(quán)工具,它讓很多以前離技術(shù)很遠(yuǎn)的人能夠很快地用上技術(shù)成果。當(dāng)這個(gè)工具變得足夠廉價(jià)和便宜時(shí),哪怕質(zhì)量差一點(diǎn),也可以讓更多人去完成創(chuàng)作。所以我覺(jué)得Sora在顛覆一個(gè)行業(yè)的同時(shí)也在啟動(dòng)一個(gè)行業(yè),新的行業(yè)一定會(huì)蓬勃發(fā)展,會(huì)有越來(lái)越多的人投入到這個(gè)行業(yè),越來(lái)越多可能沒(méi)有看過(guò)攝像機(jī)的人也能做出好視頻。
我相信Sora今天不肯開(kāi)放,還在內(nèi)測(cè),肯定時(shí)因?yàn)槌杀具€很高。但我估計(jì)很快就會(huì)有成本是Sora的百分之十,但質(zhì)量也是Sora百分之十的這樣的工具出現(xiàn)。所以我覺(jué)得這個(gè)行業(yè)會(huì)百花齊放,機(jī)會(huì)是非常大。
王:Sora出現(xiàn)之后,有些人很焦慮,AI的快速發(fā)展可能對(duì)當(dāng)下的生活、未來(lái)就業(yè)、勞動(dòng)力等都會(huì)影響。
肖:大家焦慮、擔(dān)心可能有幾個(gè)原因:
首先我們研發(fā)這些技術(shù)的人很擔(dān)心,為什么?因?yàn)楝F(xiàn)在AI很多技術(shù)對(duì)我們來(lái)講還是黑盒,我們并沒(méi)有完全弄明白它的這個(gè)原理。AI生成的過(guò)程和結(jié)果很大程度仍然是不可控的。
第二個(gè)是社會(huì)層面的擔(dān)心,就業(yè)可能會(huì)是非常直接的影響,AI已經(jīng)能夠?qū)崿F(xiàn)我們?nèi)祟?lèi)的很多能力。人機(jī)協(xié)作實(shí)際上會(huì)極大的降低人員的需求量。
從更長(zhǎng)遠(yuǎn)來(lái)講,最大的擔(dān)心還是AI是個(gè)先進(jìn)生產(chǎn)力,勢(shì)必要求我們整個(gè)生產(chǎn)關(guān)系,整個(gè)上層建筑適應(yīng)這個(gè)生產(chǎn)力。但我們整個(gè)社會(huì)結(jié)構(gòu)的調(diào)整,適應(yīng)這個(gè)先進(jìn)生產(chǎn)力的過(guò)程相當(dāng)緩慢,但AI發(fā)展卻很快速,所以也曾有人呼吁過(guò)按下AI發(fā)展的暫停鍵。AI哪些該做,哪些不該做,可能還是要設(shè)立一些應(yīng)用的原則和邊界,來(lái)確保社會(huì)平穩(wěn)有序的過(guò)渡到了適應(yīng)先進(jìn)生產(chǎn)力的階段。
傅: AI雖然這么熱,其實(shí)我覺(jué)得絕大部分人還是低估了AI的影響力,其實(shí)它影響的不僅是視頻,比如現(xiàn)在生命科學(xué)、材料,包括核聚變能源,我覺(jué)得它都會(huì)產(chǎn)生影響。核聚變這么多年沒(méi)有太大突破,我相信AI介入以后可能會(huì)超出人類(lèi)的想象。
所以它是一場(chǎng)底層革命,任何社會(huì)的每一個(gè)層面,今天我們不能成為AI原住民,我們就會(huì)被淘汰。
技術(shù)的進(jìn)步是不以哪個(gè)人的意志為轉(zhuǎn)移的,按暫停鍵是摁不住的,只能是跟著技術(shù)的變化去適應(yīng)技術(shù),所有社會(huì)生產(chǎn)力的發(fā)展,其實(shí)最根本的變革都是科學(xué)和技術(shù)。所以今天我們肯定要擁抱AI。全社會(huì)尤其是教育要率先變革。
倪:現(xiàn)在我們是處在科技的寒武紀(jì)時(shí)代啊,寒武紀(jì)大爆發(fā)的特點(diǎn)就是會(huì)產(chǎn)生稀奇古怪的東西,但也有東西出來(lái)很快就消亡了。很多投資人現(xiàn)在很痛苦,因?yàn)橐酝耐顿Y邏輯改變了。但這個(gè)過(guò)程也許對(duì)我們?nèi)祟?lèi)來(lái)說(shuō)是非常有意思的一個(gè)大爆發(fā)階段。過(guò)去寒武紀(jì)可能是要幾千萬(wàn)年,現(xiàn)在可能十年就會(huì)進(jìn)化到一個(gè)超出想象的階段,變革的速度越來(lái)越快。
對(duì)我們教育者來(lái)說(shuō),也會(huì)產(chǎn)生很多反思。機(jī)器學(xué)習(xí)到底對(duì)我們?nèi)说膶W(xué)習(xí)會(huì)帶來(lái)怎樣的啟示?我覺(jué)得我們可能會(huì)更多的人會(huì)投身到這個(gè)問(wèn)題的學(xué)習(xí)研究中。對(duì)人類(lèi)的學(xué)習(xí)進(jìn)化的研究也會(huì)迎來(lái)一個(gè)爆發(fā)期。教育的變革絕對(duì)不只是老師的變革,我覺(jué)得是所有教育人,甚至全社會(huì)都要反思的。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




