下載客戶端

登錄

Sora理解物理世界嗎？肖仰華、傅盛說法也不一

澎湃新聞記者宦艷紅

2024-02-21 16:53

來源：澎湃新聞

聽全文

·視頻大模型Sora一經(jīng)登場，逼真的視頻呈現(xiàn)讓全球科技圈沸騰。Sora背后的技術(shù)架構(gòu)是怎樣的，它的出現(xiàn)是否意味著AGI進程從10年變成了1年？Sora到底有沒有理解物理世界的能力？以Sora為代表的AI技術(shù)將如何影響人類社會？我們又將如何應(yīng)對？

2月20日，澎湃新聞邀請復(fù)旦大學(xué)教授、上海市數(shù)據(jù)科學(xué)重點實驗室主任肖仰華，獵豹移動董事長兼CEO、獵戶星空董事長傅盛，全國政協(xié)委員、上?？萍拣^館長倪閩景，做客澎湃新聞直播室，共同探討有關(guān)Sora的熱點話題。以下節(jié)選自直播實錄。

肖仰華：Sora的出現(xiàn)在意料之中也在意料之外。(00:53)

Sora的出現(xiàn)在意料之中也在意料之外

澎湃新聞記者王瑞（以下簡稱王）：三位看到Sora生成的視頻后，第一感受是怎樣的？

肖仰華（以下簡稱肖）：意料之中也意料之外。

所謂意料之中，是因為ChatGPT誕生之后，業(yè)內(nèi)專家都普遍預(yù)測大模型一定會從純文本的大模型向多模態(tài)發(fā)展。所謂多模態(tài)指的是圖文混合、和視頻相結(jié)合的這類大模型。

意料之外是指當(dāng)你親眼看到了Sora生成的視頻具備如此的逼真度，沖擊力還是很激烈的。它對模擬物理世界的逼真程度，達到了空前的水平，是之前人工智能技術(shù)從來沒有做到過的。

因為它是完全基于用數(shù)據(jù)喂養(yǎng)出來的大模型生成的，不再是通過包括建模、渲染等傳統(tǒng)的電影工業(yè)技術(shù)做出來的，所以我認為它可能會帶來非常深遠的影響，它實際上代表的是人工智能對現(xiàn)實物理世界的模擬達到了一個全新的高度。它會帶來一系列的產(chǎn)業(yè)影響，可能對整個人類社會包括教育都會帶來非常深遠的影響。

倪閩景（以下簡稱倪）： Sora生成的視頻中，很好地把握了人與人、人與物之間微妙的關(guān)聯(lián)，這也是過去很多生成式視頻做不到的，所以令人非常震驚。

傅盛（以下簡稱傅）：Sora的視頻就效果來說是非常震驚的，它超出了我們對這個行業(yè)當(dāng)前的認知。OpenAI作為一家科技企業(yè)，市場宣傳方面的能力也是超一流的。他們選擇放出來的每個視頻，幾乎都是今天視頻制作市場上的難點和熱點，很多都是用傳統(tǒng)建模方法做視頻難以企及的。譬如幾只小狗在玩雪花的視頻，對于傳統(tǒng)技術(shù)來說，雪花是最難制作的。

“相比ChatGPT，Sora技術(shù)突破有限 ”

王：Sora也是OpenAI的產(chǎn)品，它和之前的ChatGPT有何聯(lián)系？

肖：ChatGPT和Sora都使用了Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)，本質(zhì)上是一種大模型。這樣一種大模型為何會帶來這么好的效果呢？

因為世界本質(zhì)上是非常復(fù)雜的，非線性的。我們傳統(tǒng)的模型只能建一些線性的簡單關(guān)系。像這個流體力學(xué)之類非常復(fù)雜的現(xiàn)象，用傳統(tǒng)的模型非常難建模。但是今天我們看到基于Transformer深度神經(jīng)網(wǎng)絡(luò)的大模型架構(gòu)，Sora已經(jīng)具備了對現(xiàn)實世界復(fù)雜現(xiàn)象非常逼真的建模能力，這是Sora帶來的一個新高度。

傅：現(xiàn)在我冷靜下來再想想，當(dāng)然也去看了很多文獻，我又覺得Sora這個事本質(zhì)上是因為視頻是一個需求很旺盛的巨大行業(yè)，才造就了熱潮。從技術(shù)上來說，我現(xiàn)在的觀點是它沒有那么大的突破。

其實如果深入分析下去，你會看到Sora是使用了跟以前完全不同的一條路徑去構(gòu)造了一個世界，它更像我們?nèi)说谋灸苷J知。很多傳統(tǒng)做視頻建模很麻煩的事，可能對于它來說并沒有那么難?？赡軐τ谒鼇碚f，生成水面的倒影、眼鏡的反光和生成雞蛋的畫面，難度是一樣的，它是一種直覺認知。

我一直有個觀點，就是事實上如果沒有大語言模型作為基座，今天Sora在視頻領(lǐng)域是不會產(chǎn)生這么大突破的。

我想表達的一個觀點是，其實語言對世界的認知是遠超視頻的，雖然視頻看起來更讓我們有直覺的沖動，但語言的抽象和邏輯是最難理解的。一旦語言對世界的描述建立以后，視頻的這種抽象和描述相對來說是簡單的。當(dāng)然，在工程角度，視頻可能因為數(shù)據(jù)量更大，工程難度更高。但如果沒有大語言模型，今天視頻是做不到這個能力的。其實對圖像的理解是我們每個人的直覺，其實我們做夢就是一個還原世界的過程。

傅盛認為Sora的技術(shù)突破不如ChatGPT。(00:43)

OpenAI的勝利是技術(shù)信仰的勝利

王：在Sora之前，也有很多公司做文生視頻，但時長都比較短。Sora和他們的技術(shù)路線不一樣嗎？

傅：我一直有個觀點，就是OpenAI能走到今天與其說是技術(shù)積累的勝利，不如說是技術(shù)信仰的勝利；與其說是它有什么超牛的技術(shù)，還不如說它堅持在別人不相信的道路上勇敢前行。

其實即便到前年之前，OpenAI在硅谷都不是一個被看好的公司。但它自成立之初就相信一件事：讓機器讀大量的文字，它就能理解語言，甚至理解世界。這件事其實以前大家都不相信，只有它相信，所以它就堅定的去干，直到ChatGPT出來后，所有人突然發(fā)現(xiàn)，原來可以做成這樣。ChatGPT的底層架構(gòu) transformers最早是谷歌發(fā)布的。

我覺得之所以會有Sora是因為他們相信通過大語言模型的加持，能夠干到一個你想象不到的效果。

我覺得Sora和其它文生視頻的底層技術(shù)沒有本質(zhì)區(qū)別，可能沒有OpenAI這么堅定而已。所以我想說Sora的重大突破并不一定代表技術(shù)上的重大升級，你更可以理解成是一個暴力美學(xué)，因為相信這事能成，所以投的資源比其他人大一百倍，可以不計成本投入。我相信這是巨大的算力和很多的嘗試最后試出來的。

沒有哪個技術(shù)會突然有一天從哪里冒出來，那可能是我們讀武俠小說讀多了，總覺得在深山老林里面有個人拿了本寶典，最后全世界都被他征服了。但技術(shù)的演進不是這樣的，技術(shù)底層的差異化并沒有那么大。技術(shù)信仰使得他們?nèi)σ愿埃瑥亩辛艘粋€產(chǎn)品級的突破。

我判斷Sora不會是獨一無二的，很快文生視頻的行業(yè)都會從四秒、十秒變成六十秒，文生視頻會像雨后春筍一樣出來。

肖：我很贊同傅總剛才說的，OpenAI的勝利本質(zhì)上是一種信仰的勝利，是對信仰的長期堅持的勝利。

歐洲近幾百年流行的虛無主義，認為人類對世界的認知可能只是認知世界的一種方式而已。我們已經(jīng)建立起來所有知識體系，可能不過就是人類對世界的一種有限的認識方式。

大模型的成功恰恰也證明了這一點，我們完全可以用數(shù)據(jù)驅(qū)動的方法讓機器學(xué)習(xí)，它建立的對世界的建模和認知，有可能遠遠超過我們?nèi)祟悓@個世界的認知方式，所以我們?nèi)祟惪赡懿荒芴^自信。

最近楊立昆等專家指責(zé)Sora（編者注：楊立昆（Yann LeCun）：圖靈獎得主，Meta公司首席科學(xué)家、AI團隊負責(zé)人。在他看來，僅僅根據(jù)提示詞生成逼真視頻并不能代表一個模型理解了物理世界，生成視頻的過程與基于世界模型的因果預(yù)測完全不同。他認為Sora并不能模擬物理世界，在社交平臺上發(fā)文稱 “這里存在‘巨大’的誤導(dǎo)?！保盍⒗ゴ淼氖侨祟惖囊庵?，他覺得我們?nèi)耸怯凶饔玫?，我們?nèi)祟悓＜宜e累的這些知識經(jīng)驗，應(yīng)該在世界建模中扮演重要角色。但實際上我傾向于認為Sora擺脫了專家所謂的一些知識干預(yù)后，可能是更接近世界本源的，更準確的一種建模方式。

肖仰華覺得用數(shù)據(jù)驅(qū)動的機器對于世界有自己的理解。(01:20)

Sora到底能理解世界嗎？

王：關(guān)于Sora對物理世界的理解與模擬，現(xiàn)在也有很多不同的觀點，三位是怎么看？

肖：實際上以往我們認為的理解都是以人為中心的，我們說理解的主體都是人，如果你不承認機器的主體地位的話，是談不上所謂的理解的。

但我們?nèi)祟惱斫馐澜绲慕Y(jié)果也是為了表達世界，也是為了再去創(chuàng)造一個新的世界。像Sora這種工具，它能夠非常高精度的建模這個現(xiàn)實世界，可以視作一種理解能力。所以對機器而言，可能建模就是理解。

我們?nèi)祟悓@個世界重現(xiàn)都是通過一些簡化的公式去重現(xiàn)的，但Sora可以非常高精度的重建整個物理世界。從這個意義上來講，它的建模水平可以說是遠超人類水平。

倪：我覺得它至少理解了什么是人，什么是櫻花，什么是雪花，什么是街道，否則也不可能生成這些東西。但機器在表達時，會按照它看到的、認為的規(guī)律來生成，這有可能和我們平時看到的規(guī)律不一樣。因為我們?nèi)擞^察東西也永遠是片面的，我們所有的觀察只是局部。我看到你的前面，但看不到背面，看見了外面看不見里面。

傅：這個問題在我腦海里這兩天也是激烈變化。雖然在感官上Sora生成的視頻非常驚艷，但在對世界的理解度上，我覺得它肯定是不如語言模型本身的。

我注意到一個細節(jié)，其中有個中國舞龍視頻，如果你認真看它后面的每一個中國字都不是中國字，它只是長得像中國字的一個圖形。

所以我認為Sora某種意義上一定是具備對世界的某種理解。但如果你說它把整個物理世界復(fù)刻了，我覺得這肯定不是真實的。我認為它對世界的理解還停留在比較初級的水平。就像一個五六歲的小孩，對世界的理解并不深，但畫圖方面是一個天才兒童。我認為這也是電腦特性決定的，計算機的能力和人類能力并不一樣，對我們來說很難的事情對它來說可能很簡單，畫畫對計算機來說就是一堆的像素點打出來，這個色階正好符合你的審美。

所以我覺得僅以視頻本身去驚嘆Sora對物理世界的理解到了一個什么高度，這點我是絕對不認同的，“AGI因此由十年變一年”，這個我也不認同。

人才、數(shù)據(jù)、算力，國內(nèi)公司缺哪樣？

王：說到大模型公司，國內(nèi)也涌現(xiàn)了非常多企業(yè)，現(xiàn)在國內(nèi)的這個情況和大環(huán)境是怎么樣的？

肖：其實從ChatGPT開始，很多人就問為什么我們沒有率先推出這類產(chǎn)品，總體上我們國內(nèi)的態(tài)勢應(yīng)該來講處于在跟隨學(xué)習(xí)，差距如果能夠不拉大，已經(jīng)算是相當(dāng)不容易了，應(yīng)該說是在努力地追趕。

大模型需要的無外乎就是人才、數(shù)據(jù)、算力，我倒不不認為人才真的是我們的短板。大模型本質(zhì)上是一次工程創(chuàng)新，我們國家最不缺的就是工程人才，很多國外團隊中也頻頻出現(xiàn)華人的身影，所以從人才來講，我不認為我們有多大的劣勢，我們的學(xué)生完全能勝任。

再來看數(shù)據(jù)，當(dāng)然大家說數(shù)據(jù)有這樣那樣的問題，但我也不認為數(shù)據(jù)是我們根本短板。我們可以集中力量辦大事，我們有數(shù)據(jù)要素市場，也在推動這個數(shù)據(jù)語料聯(lián)盟，只要齊聚人力就能把數(shù)據(jù)給治理好。

可能現(xiàn)在最直接的因素還是算力上面，Sora說白了也是一個大力出奇跡的活，但我們現(xiàn)在算力跟不上，是一個明顯的短板。

另外，我認為可能還有我們很缺的因素就是所謂的信心。我覺得可能國內(nèi)對于AGI這條道路信心不足，對AGI理念的堅持從文化上來講接受度不高。我們中國人還是強調(diào)經(jīng)濟務(wù)實啊，都喜歡跟哪個場景一結(jié)合就能夠去變現(xiàn)，快速變現(xiàn)。但真正說要靜下心來坐冷板凳，在一條很有風(fēng)險的道路上做一個巨大的投入，我看到的還是很少。這本質(zhì)上還是一個信仰和信心的問題。

傅：AI本質(zhì)上是個平權(quán)工具，它讓很多以前離技術(shù)很遠的人能夠很快地用上技術(shù)成果。當(dāng)這個工具變得足夠廉價和便宜時，哪怕質(zhì)量差一點，也可以讓更多人去完成創(chuàng)作。所以我覺得Sora在顛覆一個行業(yè)的同時也在啟動一個行業(yè)，新的行業(yè)一定會蓬勃發(fā)展，會有越來越多的人投入到這個行業(yè)，越來越多可能沒有看過攝像機的人也能做出好視頻。

我相信Sora今天不肯開放，還在內(nèi)測，肯定時因為成本還很高。但我估計很快就會有成本是Sora的百分之十，但質(zhì)量也是Sora百分之十的這樣的工具出現(xiàn)。所以我覺得這個行業(yè)會百花齊放，機會是非常大。

傅盛：Sora的成功得益于大語言模型的成功。(00:52)

絕大部分人還是低估了AI的影響力

王：Sora出現(xiàn)之后，有些人很焦慮，AI的快速發(fā)展可能對當(dāng)下的生活、未來就業(yè)、勞動力等都會影響。

肖：大家焦慮、擔(dān)心可能有幾個原因：

首先我們研發(fā)這些技術(shù)的人很擔(dān)心，為什么？因為現(xiàn)在AI很多技術(shù)對我們來講還是黑盒，我們并沒有完全弄明白它的這個原理。AI生成的過程和結(jié)果很大程度仍然是不可控的。

第二個是社會層面的擔(dān)心，就業(yè)可能會是非常直接的影響，AI已經(jīng)能夠?qū)崿F(xiàn)我們?nèi)祟惖暮芏嗄芰ΑＨ藱C協(xié)作實際上會極大的降低人員的需求量。

從更長遠來講，最大的擔(dān)心還是AI是個先進生產(chǎn)力，勢必要求我們整個生產(chǎn)關(guān)系，整個上層建筑適應(yīng)這個生產(chǎn)力。但我們整個社會結(jié)構(gòu)的調(diào)整，適應(yīng)這個先進生產(chǎn)力的過程相當(dāng)緩慢，但AI發(fā)展卻很快速，所以也曾有人呼吁過按下AI發(fā)展的暫停鍵。AI哪些該做，哪些不該做，可能還是要設(shè)立一些應(yīng)用的原則和邊界，來確保社會平穩(wěn)有序的過渡到了適應(yīng)先進生產(chǎn)力的階段。

傅： AI雖然這么熱，其實我覺得絕大部分人還是低估了AI的影響力，其實它影響的不僅是視頻，比如現(xiàn)在生命科學(xué)、材料，包括核聚變能源，我覺得它都會產(chǎn)生影響。核聚變這么多年沒有太大突破，我相信AI介入以后可能會超出人類的想象。

所以它是一場底層革命，任何社會的每一個層面，今天我們不能成為AI原住民，我們就會被淘汰。

技術(shù)的進步是不以哪個人的意志為轉(zhuǎn)移的，按暫停鍵是摁不住的，只能是跟著技術(shù)的變化去適應(yīng)技術(shù)，所有社會生產(chǎn)力的發(fā)展，其實最根本的變革都是科學(xué)和技術(shù)。所以今天我們肯定要擁抱AI。全社會尤其是教育要率先變革。

倪：現(xiàn)在我們是處在科技的寒武紀時代啊，寒武紀大爆發(fā)的特點就是會產(chǎn)生稀奇古怪的東西，但也有東西出來很快就消亡了。很多投資人現(xiàn)在很痛苦，因為以往的投資邏輯改變了。但這個過程也許對我們?nèi)祟悂碚f是非常有意思的一個大爆發(fā)階段。過去寒武紀可能是要幾千萬年，現(xiàn)在可能十年就會進化到一個超出想象的階段，變革的速度越來越快。

對我們教育者來說，也會產(chǎn)生很多反思。機器學(xué)習(xí)到底對我們?nèi)说膶W(xué)習(xí)會帶來怎樣的啟示？我覺得我們可能會更多的人會投身到這個問題的學(xué)習(xí)研究中。對人類的學(xué)習(xí)進化的研究也會迎來一個爆發(fā)期。教育的變革絕對不只是老師的變革，我覺得是所有教育人，甚至全社會都要反思的。