- +1
“吉卜力風(fēng)”免費版來了!豆包這款A(yù)I生圖神器,不比GPT弱?
最近兩周,“吉卜力畫風(fēng)”突然就火了。
事情的開始是這樣的,3月26日,OpenAI推出了基于GPT-4o多模態(tài)大模型的高精度圖像生成功能“4o Image Generation”,按照他們的說法,現(xiàn)在用戶只需一句簡單的文字描述,就能實現(xiàn)精美的廣告或平面圖的制作、應(yīng)用界面的UI設(shè)計、LOGO或圖片風(fēng)格的切換等等。
結(jié)果呢?整個互聯(lián)網(wǎng)的人,都在用它變身“賽博宮崎駿”。
不開玩笑,小雷是真被這玩意給刷屏了,這兩天一打開群聊,就能看到無法無天的群友們在拿GPT-4o瘋狂整活,有做頭像的,有做表情包的,甚至還有把“黃O大道東”變成吉卜力畫風(fēng)的,推特上的國外網(wǎng)友玩得更是樂此不疲,看得我都有點心癢癢的。
(圖源:X)
幸好,類似的功能,國內(nèi)大模型并不是沒有。
比如說字節(jié)跳動的SeedEdit,同樣可以實現(xiàn)“自然語意修圖”,用戶只需輸入簡單的自然語言,便可對圖像進行多樣化編輯操作。
最重要的是,這功能可不需要你想方設(shè)法翻出去用,在字節(jié)跳動的豆包官網(wǎng)就直接能用,而且目前豆包的“圖像生成”功能是完全免費且不存在限制的,這一波甚至能把開會員的錢也給直接省下來。
話不說多,我們這邊直接開整!
豆包這款產(chǎn)品,讓人人都是宮崎駿
想體驗這個功能的話,其實還蠻簡單的就是了。
打開豆包網(wǎng)頁版,在輸入框下面就有「圖片生成」,應(yīng)該就能看到上傳參考圖的選項了,這里就是SeedEdit模型的入口。
要做的事情很簡單,上傳圖片,然后輸入我們想要改變的內(nèi)容。
(圖源:雷科技)
話不多說,先來看圖。
首先,小雷這邊選用了一張來自知名音樂錄像帶里的截圖,讓豆包和最近巨火的GPT-4o都試著“幫我換成吉卜力風(fēng)格”。
這是原圖:
(圖源:Youtube)
這是豆包的成品:
(圖源:豆包)
這是GPT-4o的成品:
(圖源:GPT)
對比下來,GPT-4o的衣服還原度更高,手部沒有變形,只是沒有維持原圖比例;豆包雖然整體構(gòu)圖、配色更加貼近原圖,但是衣服有些微變化,手部有些變形,甚至多了一只抓著麥克風(fēng)的手。
接著試一下大家都關(guān)心的名人,比如說馬斯克:
(圖源:豆包)
比方說喬布斯:
(圖源:豆包)
再給喬布斯換個迪士尼風(fēng)格:
(圖源:豆包)
從結(jié)果來看,豆包的轉(zhuǎn)換效果可以說是非常成熟。
最后,我們試一試影視劇集里的名場面,這次就拿《和平使者》里面約翰·塞納飾演的克里斯多?!な访芩沟拿麍雒孀隼樱?/p>
(原圖,圖源:HBO Max)
(圖源:豆包)
(圖源:GPT)
這次差距其實更加明顯一些,GPT-4o甚至把金屬頭盔保留了下來,身邊的兩名角色也做到了精準的畫風(fēng)轉(zhuǎn)制,但是圖片比例有所修改,文字信息也沒有保留下來。
作為對比,豆包則是試圖在整幅畫面上進行對齊,然而人數(shù)一多起來,角色的服裝和樣子就沒多少能對上的。
但是,接著我就要說但是了,豆包的效果還是比Gemini 2.0要強上一大截的,谷歌這玩意雖然支持自然語意修圖,但是既不懂吉卜力風(fēng)格是啥意思,也搞不清楚怎么修改圖片比例。
(圖源:Gemini 2.0)
可惡的谷歌,不要給我看這一堆不知所謂的東西!
其實把思路反過來,把畫改成真實風(fēng)格,豆包搞得也不錯,我上傳了一張刻在不少人基因里的Meme圖片,讓它以此為原型,生成一張真實照片。
(圖源:豆包)
嗯...只能說像是挺像的,就是沒了那種沖擊感。
如果再簡單調(diào)整一下的話,就能做出下面這種效果:
(圖源:豆包)
雖說臉型有點不對,笑得也是有點猙獰,但是這種打破次元壁的做法,還真就只有AI大模型能夠?qū)崿F(xiàn)。
豆包圖片處理能力在線,但仍有較大改進空間
不過,人人都在用吉卜力畫風(fēng),也帶來了新一輪的版權(quán)問題。
畢竟早在2016年,宮崎駿評價AI動畫技術(shù)時就直言:這是對生命本身的侮辱。
宮崎駿反對用技術(shù)代替手工創(chuàng)作,他認為AI生成圖像缺乏對生命力的敬畏,而在2025年的今天,技術(shù)力的進步,反而讓大家對這件事情變得更肆無忌憚了起來,確實是有點諷刺的。
(圖源:Youtube)
既然如此,我們不妨轉(zhuǎn)換一下思路,把它當(dāng)成PS來用?
比如在設(shè)計行業(yè)里源遠流長的梗,“讓大象轉(zhuǎn)個身”這種要求,我們在豆包上能不能實現(xiàn)呢?
答案是“完全可以,輕易可以”。
可以看到,SeedEdit生成的大象背面是非常合乎邏輯的,耳朵的形狀、腳部的位置、身體的顏色都做得相當(dāng)不錯,周圍的環(huán)境也保持了高度的一致,很難看出畫面上有什么破綻。
不過類似海報的效果,豆包就做得不咋樣了,和GPT-4o可以說一眼就能看出差別了。
(圖源:豆包)
(圖源:GPT)
只能說,豆包在審美這塊,還真有挺多要學(xué)的地方。
最后,我也試了一下豆包憑空進行“圖片生成”的效果。
提示詞如下:
一位年輕的印度女性,黑發(fā)扎著敞開的馬尾辮,身穿黑色夾克,站在大學(xué)校園里,直視著鏡頭。該圖像具有1990年代風(fēng)格的電影靜態(tài)美學(xué),在陽光明媚的日子里拍下的特寫肖像。
(圖源:雷科技)
對比豆包,GPT-4o產(chǎn)出的圖更有特寫感;Midjourney V7產(chǎn)出的圖片光線更加自然,人物臉部的膚色也相對更加清晰,細節(jié)更加豐富,畫面焦點更加清晰,但總的來說,三者都沒啥肉眼可見的問題。
AI修圖,爆發(fā)在即
不可否認,如今AI大模型在“繪畫”上足以獨當(dāng)一面了。
但是在圖像編輯領(lǐng)域,AI大模型依然是相對落后的,無法進行精準編輯一直是行業(yè)的老大難問題。
前些年,這類需求一般可以通過Stable Diffusion的ControlNet插件來實現(xiàn)。
它可以獲取額外的輸入圖像,通過不同的預(yù)處理器轉(zhuǎn)換為控制圖,進而作為Stable Diffusion擴散的額外條件,只需使用文本提示詞,就可以在保持圖像主體特征的前提下任意修改圖像細節(jié)。
(圖源:新浪微博,識別特征并進行重新繪制)
然而本地部署AI應(yīng)用這事,和大部分小白是基本無緣的。
所以在進入今年后,包括GPT-4o、Gemini 2、Midjourney V7等先后上線了通過自然語意修圖的功能。
個人認為,這種只需給定輸入圖像和告訴模型要做什么的文本描述,然后模型就能遵循描述指令來編輯圖像的功能,甚至可以被視為重大突破,曾經(jīng)被視為必備技能的PS,如今似乎陷入了“可學(xué)可不學(xué)”的微妙處境。
當(dāng)然了,目前這類模型在生成圖片時還是有一些問題存在的。
直到今天,豆包AI修圖依然缺乏人像前后的一致性,也缺乏圖片內(nèi)容的方向性,只要涉及到人物面部的修圖,那么最終出來的圖像和原圖的差異會很夸張,豆包本身也很難判斷你要修改的是圖片里的哪個元素。
(圖源:豆包)
倒是文字處理能力,相較以往有了一定提升,現(xiàn)在SeedEdit在修圖時已經(jīng)不會隨便編造文字內(nèi)容,但是圖片生成時的錯字現(xiàn)象依然需要改善。
不管怎么說,豆包SeedEdit算是彌補了國產(chǎn)大模型在語義AI修圖應(yīng)用這塊的空白。
可以預(yù)見的是,隨著AI圖像編輯技術(shù)的不斷發(fā)展,未來手機、電腦都可能會集成這項功能,就像AI消除、AI擴圖那樣走進尋常百姓家。無論是小白還是大咖,每個人都有機會輕松上手使用,讓自己對美的理解可以更直觀地展現(xiàn)出來。
修圖有手就行?或許真的不是夢。
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




