- +1
Sora為何出道即碾壓主流AI視頻模型:文生視頻最長紀(jì)錄,對(duì)世界有全面認(rèn)知
近日,AI(人工智能)新銳巨頭OpenAI推出文生視頻模型Sora,將人們的視線再次引到了AI視頻生成賽道。
由于在AI生成視頻的時(shí)長上成功突破到一分鐘,再加上演示視頻的高度逼真和高質(zhì)量,Sora立刻引起了轟動(dòng)。不過,OpenAI尚未宣布Sora對(duì)公眾正式開放的日期。Sora將首先被提供給安全團(tuán)隊(duì),以評(píng)估產(chǎn)品的危害或風(fēng)險(xiǎn),一些視覺藝術(shù)家、設(shè)計(jì)師和電影制作人也能獲得Sora的訪問權(quán)限。
在Sora推出之前,已經(jīng)出現(xiàn)了一些用戶認(rèn)可度較高的AI生成視頻模型。為什么Sora能引發(fā)如此大的轟動(dòng)?多家外媒對(duì)三款熱門文生視頻模型Runway、Pika Labs和Stable Video進(jìn)行了分析,并比較了Sora和它們之間的技術(shù)差別。
時(shí)長:60秒 vs 16秒
在Sora橫空出世之前,Runway一直被視為AI生成視頻的默認(rèn)選擇,尤其是自去年11月推出第二代模型以來,Runway還被稱為“AI視頻界的MidJourney”。第二代模型Gen-2不僅解決了第一代AI生成視頻中每幀之間連貫性過低的問題,在從圖像生成視頻的過程中也能給出很好的結(jié)果。

Runway能夠生成已經(jīng)很逼真的四秒短視頻。來源:Runway
而在Sora發(fā)布后,Runway的CEO克里斯托瓦爾·巴倫蘇埃拉(Cristóbal Valenzuela)便在X平臺(tái)上發(fā)布了兩個(gè)字:“Game On(比賽開始了)。”
Sora最震撼的技術(shù)突破之一在于其輸出的視頻時(shí)長。Runway能夠生成4秒長的視頻,用戶可以將其最多延長至16秒,是AI生成視頻在2023年所能達(dá)到的最長時(shí)長紀(jì)錄。Stable Video也提供4秒的視頻,Pika則提供3秒的視頻。在這一方面,Sora以1分鐘的時(shí)長向競爭對(duì)手們提出了挑戰(zhàn)。

Sora傳播度最高的時(shí)長60秒的視頻之一,女子行走在東京街頭。來源:Sora
Sora模型能夠?qū)崿F(xiàn)視頻時(shí)長突破,主要功臣是其所采用的擴(kuò)散Transformer架構(gòu),而Sora的創(chuàng)始者之一、現(xiàn)任OpenAI工程師的William Peebles剛在去年和別人一同發(fā)布了針對(duì)該架構(gòu)的研究論文。
本質(zhì)上,Sora和Pika、Runway采用了相似的底層模型,即Diffusion擴(kuò)散模型。不同之處在于,Sora把其中的實(shí)現(xiàn)邏輯進(jìn)行了變化,將U-Net架構(gòu)替換成了Transformer架構(gòu)。
不過目前,外界尚不清楚Sora提供了哪些功能以供用戶定制輸出視頻,因此Runway仍可能是Sora的替代方案之一。今年1月,Runway剛宣布,用戶將能夠通過多頭運(yùn)動(dòng)筆刷(Multi Motion Brush)功能實(shí)現(xiàn)對(duì)AI生成視頻中多個(gè)元素的運(yùn)動(dòng)控制。此外,Runway也因其提供了集合多種AI工具的視頻制作解決方案而備受推崇。
鏡頭語言:運(yùn)動(dòng)鏡頭 vs 靜止視角
值得注意的是,X平臺(tái)上的一些用戶表示,在OpenAI推出Sora的2月15日晚上,AI視頻生成初創(chuàng)公司Stability AI也在官網(wǎng)和X平臺(tái)上發(fā)布了新動(dòng)態(tài),宣布了Stable Video Diffusion更新1.1版本。但是,幾分鐘后,這兩條消息都迅速消失了。

被Stability刪掉的文章截屏。來源:X平臺(tái)
外界無從得知這究竟是由于操作失誤,還是Stability觀察到了兩種AI生成視頻之間的巨大質(zhì)量差異,選擇重新制作廣告。Stable Video和前兩款產(chǎn)品一樣,都沒能脫離現(xiàn)有文生視頻的一般模式,即輸出單一的、通常是靜止視角的短視頻片段。相比之下,Sora的宣傳視頻包括變換攝像機(jī)角度、電影式剪輯和場景變換,也就是人們常說的鏡頭語言的使用。
此外,許多分析都指出,Sora帶有世界模型的特質(zhì)。所謂世界模型便是對(duì)真實(shí)的物理世界進(jìn)行建模,讓機(jī)器能夠像人類一樣,對(duì)世界產(chǎn)生一個(gè)全面而準(zhǔn)確的認(rèn)知。這一特性使得AI視頻生成更流暢、更符合邏輯,降低了視頻模型的訓(xùn)練成本,提升了訓(xùn)練效率。

由Sora生成的“賽博朋克背景下機(jī)器人的生活故事”。來源:Sora
和Runway一樣,Stability AI的CEO埃馬德·莫斯塔克(Emad Mostaque)也在X平臺(tái)上感慨“奧特曼(OpenAI的創(chuàng)始人兼CEO)真是一個(gè)魔術(shù)師”,并稱Sora可以被視為AI視頻的GPT3,將在未來幾年內(nèi)得到擴(kuò)展、細(xì)化、調(diào)整和優(yōu)化。
劣勢(shì):有無免費(fèi)選項(xiàng),能否開源
和前輩們相比,Sora也存在兩個(gè)可能令其不會(huì)被用戶青睞的問題:有無免費(fèi)選項(xiàng),以及能否開源。
作為AI視頻領(lǐng)域的新晉競爭者,Pika Labs于去年11月推出了生成式AI視頻工具Pika 1.0,也在推出時(shí)憑借精美的演示視頻引起了轟動(dòng)。Pika已于去年12月公開,與Runway具備相似的質(zhì)量,并在短時(shí)間內(nèi)建立了一個(gè)非?;钴S的用戶社區(qū)。

Pika生成的視頻截圖。來源:Pika
最重要的是,和其他競爭對(duì)手相比,Pika提供了更具吸引力的免費(fèi)使用選項(xiàng)。Runway只會(huì)給用戶125個(gè)不可續(xù)的免費(fèi)積分,而Pika每天都會(huì)給用戶發(fā)放30個(gè)積分,這使得它在短時(shí)間內(nèi)擁有了一個(gè)龐大且活躍的用戶社群。
Stability AI旗下的Stable Video Diffusion則是一款開源的視頻生成模型。類似于圖像版的Stable Diffusion,該模型可以根據(jù)用戶自己的需求進(jìn)行定制,并且可以在個(gè)人設(shè)備上進(jìn)行本地安裝,而Sora大概率永遠(yuǎn)不會(huì)提供這種功能。
目前,Stable Video Diffusion也僅供部分用戶試用,在Stability的官網(wǎng)上可以加入等待列表。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




