- +1
美攝汽車圖像及視頻處理方案
編者按: 隨著智能汽車的不斷發(fā)展,消費(fèi)者對(duì)車身娛樂(lè)系統(tǒng)的要求也不斷加強(qiáng)。雖然車身攝像頭數(shù)量越來(lái)越多,但是依然面臨畫(huà)質(zhì)不佳、存在畸變等問(wèn)題,那么如何解決這些問(wèn)題呢?LiveVideoStackCon2022 音視頻技術(shù)大會(huì)上海站邀請(qǐng)到了美攝科技的侯康老師,為我們分享美攝汽車圖像及視頻處理方案,將介紹圖像畫(huà)質(zhì)增強(qiáng)、智能視頻剪輯和虛擬場(chǎng)景娛樂(lè)等內(nèi)容。
文 / 侯康
整理 / LiveVideoStack

大家好,我是來(lái)自美攝科技的侯康,是美攝的 AI 負(fù)責(zé)人。今天,我將和大家分享美攝汽車圖像及視頻處理方案里的算法、系統(tǒng)架構(gòu)和技術(shù)等。
1、美攝發(fā)展

首先,介紹美攝和將要分享的技術(shù)的背景。美攝已經(jīng)在視頻領(lǐng)域深耕 20 余年,美攝的團(tuán)隊(duì)曾榮獲國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)、中國(guó)電影電視技術(shù)學(xué)會(huì)科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)等,我在 2019 年?duì)款^研發(fā)的視音頻智能生產(chǎn)方案于去年獲得了首屆廣播電視和網(wǎng)絡(luò)視聽(tīng)人工智能應(yīng)用創(chuàng)新大賽一等獎(jiǎng)。2021 年,乘著智能汽車發(fā)展的東風(fēng),美攝進(jìn)入汽車領(lǐng)域,根據(jù)汽車的需求進(jìn)行優(yōu)化和定制,形成了新的方案。
2、產(chǎn)品領(lǐng)域

美攝的產(chǎn)品主要基于三大 SDK。首先是視頻編輯處理 SDK,在底層進(jìn)行視頻編輯處理、渲染等。然后是 AI 的 SDK,主要包括基礎(chǔ)的檢測(cè)、點(diǎn)位、表情識(shí)別功能等。最后是 AR 渲染的 SDK,基于此 SDK 得到了云端 / PC 端視頻處理方案、汽車及智能硬件方案和開(kāi)發(fā)及設(shè)計(jì)服務(wù)。
3、方案總述

接下來(lái)詳細(xì)介紹方案的整體框架。方案分為四個(gè)模塊,前三個(gè)模塊是上層的應(yīng)用模塊,最后一個(gè)模塊是提供 AI 識(shí)別引擎的模塊。
第一個(gè)模塊是圖像畫(huà)質(zhì)增強(qiáng)。我們做的是中間的處理,即智能化的畫(huà)質(zhì)提升。我們將傳統(tǒng)圖像處理和 AI 能力結(jié)合,實(shí)現(xiàn)車輛攝像頭畸變校正、多攝拼接,畫(huà)面色彩校正和畫(huà)質(zhì)提升等。其中,我將重點(diǎn)介紹車輛攝像頭畸變校正,因?yàn)檐囕v攝像頭畸變校正與普通畸變校正不同。還將重點(diǎn)介紹畫(huà)面色彩校正和畫(huà)質(zhì)提升,因?yàn)槟壳捌嚨闹悄芑^(guò)程不是準(zhǔn)備好了一定要做智能化,而是為了讓很多質(zhì)量不好的車輛的攝像頭能達(dá)到出彩的拍攝效果,因此需要畫(huà)面色彩校正和畫(huà)質(zhì)提升。
第二個(gè)模塊是智能視頻剪輯,也是今天將重點(diǎn)介紹的內(nèi)容。我們通過(guò)自動(dòng)地對(duì)拍攝畫(huà)面內(nèi)容進(jìn)行分析和檢測(cè),結(jié)合車輛數(shù)據(jù)信息(行駛狀態(tài)等),在無(wú)需人工操作的情況下,自動(dòng)將車內(nèi)視頻變成精彩影片。另外,也需自動(dòng)地驅(qū)動(dòng)攝像頭對(duì)車外景物進(jìn)行拍攝。我們的目標(biāo)是,在駕駛?cè)藛T開(kāi)車且無(wú)法進(jìn)行過(guò)多操作的情況下,利用智能視頻剪輯協(xié)助完成圖像拍攝、采集和剪輯等。
第三個(gè)模塊是車內(nèi)互動(dòng)娛樂(lè)。接觸智能車圈的人聽(tīng)過(guò)的一句話是 “以后的汽車就是有四個(gè)輪子的手機(jī)”,因此手機(jī)的很多玩法可以遷移到車內(nèi),但同時(shí)也需要針對(duì)車內(nèi)情景做相關(guān)優(yōu)化。
最后一個(gè)模塊是 AI 內(nèi)容識(shí)別。AI 內(nèi)容識(shí)別會(huì)進(jìn)行很多底層的內(nèi)容識(shí)別,識(shí)別結(jié)果會(huì)支撐前三個(gè)模塊的智能化的功能實(shí)現(xiàn)。
接下來(lái)詳細(xì)介紹各個(gè)部分。

首先重點(diǎn)介紹的是攝像頭畸變校正。畫(huà)面里的兩張圖片演示的是傳統(tǒng)的畸變校正,目前汽車上的攝像頭使用的是球面鏡頭(手機(jī)可使用非球面鏡頭),其拍攝的畫(huà)面畸變十分嚴(yán)重,而有些汽車在車內(nèi)或車外使用的是廣角攝像頭,其拍攝的畫(huà)面畸變更嚴(yán)重,此時(shí)需要采用算法對(duì)其進(jìn)行校正。通過(guò)標(biāo)定將畸變校正為正常狀態(tài)的算法是一種傳統(tǒng)的、通用且成熟的方案,這個(gè)算法可用于車外攝像頭,因?yàn)樵谟^看車外景物時(shí)不會(huì)對(duì)景物的尺度有很大的認(rèn)知(比如圖中觀看樓時(shí),看不出來(lái)樓的尺度變化)。車內(nèi)情況則不同,車內(nèi)攝像頭一般放置在車的正中間,其拍攝的對(duì)象主要是人,而車內(nèi)前排的主駕和副駕分坐兩邊,后排分坐三個(gè)人,此時(shí)主駕、副駕和后排坐兩邊的人的點(diǎn)會(huì)出現(xiàn)嚴(yán)重扭曲,導(dǎo)致畫(huà)面完全不可使用。傳統(tǒng)的畸變校正算法原理是:直線由于鏡頭原因畸變成曲線,校正算法反向測(cè)出曲線形態(tài),然后將曲線變?yōu)橹本€。因此不能用傳統(tǒng)的畸變校正算法對(duì)車輛內(nèi)部拍攝進(jìn)行校正,因?yàn)檫@會(huì)導(dǎo)致人臉的拉長(zhǎng),甚至拉歪。因此,針對(duì)車內(nèi)情況我們開(kāi)發(fā)出一套基于人臉特征的畸變校正算法,該算法的目的是校正人臉,將人臉的狀態(tài)從扭曲校正為端正,同時(shí)也會(huì)對(duì)人體進(jìn)行校正。校正時(shí),不會(huì)過(guò)多關(guān)注車內(nèi)內(nèi)飾,因?yàn)槠匠G闆r下車內(nèi)內(nèi)飾都是曲線,無(wú)需特地進(jìn)行校正,更多關(guān)注的還是人臉及人體。

接下來(lái)是我們主要研發(fā)優(yōu)化的算法。當(dāng)前,在車輛的四周會(huì)安裝多個(gè)攝像頭以實(shí)現(xiàn)記錄行車過(guò)程、觀察四周情況、自動(dòng)駕駛、輔助駕駛等功能,但當(dāng)未使用這些功能時(shí),這些攝像頭是無(wú)意義的,此時(shí)希望將多個(gè)攝像頭進(jìn)行拼接以實(shí)現(xiàn)如左圖所示的全景拼接效果。拼接算法首先進(jìn)行攝像頭的校正、標(biāo)記,然后在空間中對(duì)攝像頭進(jìn)行先驗(yàn)排序,找到畫(huà)面在空間中的位置并將其拼接起來(lái)。拼接算法早期主要運(yùn)用在比較緊湊的設(shè)備中,如 insta360 等,這種設(shè)備的特點(diǎn)是不同攝像頭的相機(jī)坐標(biāo)系的原點(diǎn)幾乎是重合的,因此通過(guò)一些特殊算法處理可消除拼接后的拼縫(完全重合則沒(méi)有拼縫),但這種處理方式不能運(yùn)用在汽車上。如右圖所示,汽車攝像頭分布比較分散,攝像頭的相機(jī)坐標(biāo)系原點(diǎn)完全沒(méi)有重合,相距甚遠(yuǎn),在拼接左圖這樣開(kāi)闊、類似無(wú)限遠(yuǎn)的平面時(shí),拼縫幾乎看不見(jiàn),處理后的消除效果較好,但拼接街上近距離的場(chǎng)景(如樹(shù)、迎面而來(lái)的車或建筑物)時(shí),拼縫非常明顯,且畫(huà)面的前后景越豐富,不同位置的拼縫差別越大。這是一個(gè)核心的問(wèn)題,我們當(dāng)前正在研究解決。

接下來(lái)介紹核心的智能校色方案。這部分與剛才潘老師介紹的內(nèi)容有一定關(guān)聯(lián),潘老師介紹的技術(shù)是原汁原味地保留畫(huà)面最精彩的部分,我們是在攝像頭拍攝的原始畫(huà)面質(zhì)量不好的情況下,考慮如何提升畫(huà)質(zhì)。車輛在拍攝中一般會(huì)遇到一個(gè)問(wèn)題,如左圖所示,圖片的對(duì)比度、亮度較低,且由于傳感器的質(zhì)量問(wèn)題,飽和度也不好,最終使得畫(huà)面灰蒙蒙的,細(xì)節(jié)不清晰且層次感不強(qiáng)。為了解決這個(gè)問(wèn)題,我們基于傳統(tǒng)方案研究了一套智能校色方案,該方案首先對(duì)原始圖片的畫(huà)面像素進(jìn)行統(tǒng)計(jì)得到統(tǒng)計(jì)值,如直方圖分布曲線形狀、最亮的 10% 像素的平均值、最暗的 10% 像素的平均值等,然后對(duì)這些統(tǒng)計(jì)值進(jìn)行處理,通過(guò)算法得到十幾項(xiàng)基本的調(diào)色參數(shù)(如亮度、曝光度、對(duì)比度、自然飽和度等),最后通過(guò)調(diào)節(jié)這些參數(shù)得到畫(huà)質(zhì)較好的圖片。除了基本的調(diào)色項(xiàng)外,我們還開(kāi)發(fā)了算法來(lái)處理畫(huà)面的細(xì)節(jié)問(wèn)題,傳統(tǒng)的圖像細(xì)節(jié)增強(qiáng)主要是對(duì)邊緣細(xì)節(jié)進(jìn)行增強(qiáng),但大多情況下畫(huà)面的層次感不由邊緣決定,單獨(dú)增強(qiáng)邊緣細(xì)節(jié)反而使得畫(huà)面不和諧,因此我們開(kāi)發(fā)了一個(gè)清晰度算法來(lái)增強(qiáng)畫(huà)面的局部色塊、特征,然后結(jié)合邊緣細(xì)節(jié)的增強(qiáng)可得到一個(gè)較柔和的增強(qiáng)后的畫(huà)面,右邊的圖片就是經(jīng)過(guò)增強(qiáng)后的畫(huà)面,單獨(dú)的調(diào)色或亮度變化無(wú)法得到右圖的效果,需經(jīng)過(guò)清晰度和銳度的調(diào)整才能顯示畫(huà)面的細(xì)節(jié)。這套方案是目前較為通用的一套方案,后續(xù)我們會(huì)繼續(xù)研究新的方案:針對(duì)不同的畫(huà)面內(nèi)容(如湖面、沙漠等),提供特殊的校色方案。

接下來(lái)介紹攝像頭防抖處理。左圖顯示了由于抖動(dòng)產(chǎn)生的運(yùn)動(dòng)模糊,對(duì)此我們的目的是去掉運(yùn)動(dòng)模糊,但車廠的核心訴求不是去除運(yùn)動(dòng)模糊,而是對(duì)車輛行駛過(guò)程中拍攝的視頻進(jìn)行防抖,因?yàn)槁访娌黄秸葐?wèn)題會(huì)使得拍攝的部分畫(huà)面不穩(wěn)定,此時(shí)需要對(duì)畫(huà)面進(jìn)行處理使其更平穩(wěn)。傳統(tǒng)算法不適合這樣的場(chǎng)景,因?yàn)榛趩螒?yīng)矩陣或仿射變換和透視變換矩陣來(lái)調(diào)節(jié)畫(huà)面的傳統(tǒng)算法適用于簡(jiǎn)單的場(chǎng)景,而由于車輛的不停行駛,車輛拍攝的場(chǎng)景是復(fù)雜多變的,比如汽車經(jīng)過(guò)橋洞后,本來(lái)開(kāi)闊的場(chǎng)景會(huì)收縮,此時(shí)若用傳統(tǒng)算法檢測(cè)角點(diǎn),進(jìn)行角點(diǎn)匹配得到單應(yīng)矩陣或仿射變換矩陣來(lái)調(diào)節(jié)畫(huà)面,可能不能消除抖動(dòng),且當(dāng)畫(huà)面突變,如車輛經(jīng)過(guò)或場(chǎng)景從開(kāi)闊變?yōu)楠M窄時(shí),甚至?xí)攵秳?dòng)。為了解決這個(gè)問(wèn)題,需要對(duì)局部進(jìn)行防抖處理,我們基于 AI 算法判斷畫(huà)面中的靜止部分(背景)和運(yùn)動(dòng)部分(車輛),基于這些狀態(tài)判斷畫(huà)面抖動(dòng)的具體參數(shù),然后對(duì)這些參數(shù)進(jìn)行圓滑處理。

接下來(lái)是今天最核心的內(nèi)容 —— 汽車智能剪輯方案,這是我們目前主推的一套方案,在某些大廠已經(jīng)落地,我們先來(lái)看這個(gè)視頻。視頻中演示的是智能剪輯方案的大體思路,首先對(duì)采集到的視頻畫(huà)面進(jìn)行多維度分析,然后根據(jù)分析結(jié)果將視頻結(jié)構(gòu)化,即對(duì)視頻進(jìn)行多維度分段,并為每一段打上標(biāo)簽,得到對(duì)于視頻的立體的理解,接下來(lái)根據(jù)客戶的要求,如定制的拍攝主題、拍攝思路等,定制檢測(cè)和匹配的規(guī)則,最終通過(guò)剪輯的結(jié)果生成視頻,且通過(guò)檢測(cè)結(jié)果可加入動(dòng)態(tài)化的包裝。

整個(gè)框架分為三個(gè)主要的部分。第一個(gè)主要部分是 AI 的檢測(cè)部分,除了檢測(cè)外,還會(huì)記錄汽車行駛過(guò)程中的重要信息,比如車速、GPS 信息等,并將所有數(shù)據(jù)存儲(chǔ)到我們開(kāi)發(fā)的數(shù)據(jù)庫(kù)里,以后想再使用相同視頻的時(shí)候,無(wú)需重新對(duì)其進(jìn)行檢測(cè),可直接在數(shù)據(jù)庫(kù)中提取相關(guān)內(nèi)容,剪輯的時(shí)候也可直接從數(shù)據(jù)庫(kù)中提取內(nèi)容。數(shù)據(jù)庫(kù)除了存儲(chǔ)信息、關(guān)聯(lián)視頻外,它的數(shù)據(jù)結(jié)構(gòu)使其能做到盡可能快速地檢索、匹配,以后可根據(jù)需求快速地提供結(jié)果。

在畫(huà)面智能分析內(nèi)容方面,美攝的 SDK 可支持 2000 多種標(biāo)簽類型,實(shí)際使用時(shí)主要是對(duì)場(chǎng)景、車輛、地標(biāo)、行人、天空和天氣等進(jìn)行檢測(cè)。其中,畫(huà)面智能分析的難點(diǎn)不是如何訓(xùn)練模型或得到好的結(jié)果,而是如何減小芯片的算力占用,因?yàn)槠嚨奶幚硇酒蠖嗷谑謾C(jī)芯片,有些是高通用型芯片以及國(guó)產(chǎn)的低端芯片,這些芯片的處理能力不夠,而汽車在行駛過(guò)程中除了拍攝還要執(zhí)行其他功能,因此后臺(tái)處理信息時(shí)需要保證小的算力占用。針對(duì)這個(gè)問(wèn)題,我們對(duì)模型結(jié)構(gòu)和訓(xùn)練策略進(jìn)行了優(yōu)化,目前我們的方案中使用了七八個(gè)模型(有時(shí)候更多),但在運(yùn)行過(guò)程中只占用了低于 5%(大概是 3.5%)的 CPU,就可以完成檢測(cè)。

剛才詳細(xì)介紹了畫(huà)面 AI 信息,接下來(lái)重點(diǎn)講解車輛信息這個(gè)關(guān)鍵點(diǎn)。車輛信息包括時(shí)速、轉(zhuǎn)向、時(shí)間、溫度、天氣預(yù)報(bào)和 GPS 信息等,這些信息本身是剪輯時(shí)所需的有效信息,比如剪輯的主題是非常輕快的,需要知道車是否在行駛中,此時(shí)車速是一個(gè)重要的信息。此外,車輛信息可以與 AI 檢測(cè)結(jié)果聯(lián)通,即系統(tǒng)可根據(jù)車輛信息來(lái)校正 AI 檢測(cè)結(jié)果,因?yàn)?AI 檢測(cè)結(jié)果不可能百分百準(zhǔn)確,雖然絕大多數(shù)情況下檢測(cè)結(jié)果較準(zhǔn)確,但個(gè)別情況下檢測(cè)結(jié)果會(huì)錯(cuò)得很離譜。舉個(gè)例子,檢測(cè)路面是否有積水時(shí),由于中午陽(yáng)光較強(qiáng),光照射到路面再反射到鏡頭會(huì)使得畫(huà)面中的路面一片白色,且檢測(cè)時(shí)圖片會(huì)收縮到很小,導(dǎo)致無(wú)法看清畫(huà)面內(nèi)容,這時(shí)可利用天氣、溫度信息對(duì) AI 結(jié)果進(jìn)行校正,如溫度在 30° 以上,則路面不可能有積水。總的來(lái)說(shuō),基于車輛信息得到一套或處理框架來(lái)校正 AI 檢測(cè)結(jié)果使其更準(zhǔn)確。

接下來(lái)介紹智能剪輯策略。對(duì)于智能剪輯來(lái)說(shuō),當(dāng)前沒(méi)有通用的完全基于深度學(xué)習(xí)的解決方案,雖然傳統(tǒng)方法或 Clip 可以將視頻內(nèi)容進(jìn)行語(yǔ)義化的分解,但也很難在車輛情況下進(jìn)行智能剪輯。對(duì)此,美攝提出了一個(gè)剪輯方案,將深度學(xué)習(xí)的檢測(cè)和專家系統(tǒng)結(jié)合起來(lái),即后期為前期的檢測(cè)結(jié)果匹配一套剪輯的規(guī)則來(lái)實(shí)現(xiàn)剪輯的服務(wù)。在使用這個(gè)方案時(shí),我們通過(guò)分析用戶選擇的感興趣的視頻內(nèi)容,推薦與視頻相關(guān)的剪輯主題,然后根據(jù)剪輯主題內(nèi)部的內(nèi)容將所選視頻中的重要片段提取出來(lái),對(duì)其進(jìn)行包裝合成。

接下來(lái)介紹實(shí)時(shí) AR 特效方案。剛才提到,以后的汽車就相當(dāng)于一個(gè)手機(jī),手機(jī)上的很多功能可以遷移到汽車上,如美顏、人臉道具等,目前的 AR 特效算法基于我們自研的方案,包括自研的 240 點(diǎn)位檢測(cè)、對(duì)主副駕人臉、年齡和性別的檢測(cè)等,基于這些檢測(cè)方案實(shí)現(xiàn)美顏、Animoji 等效果。

此外,我們也在車輛虛擬助手方面進(jìn)行了研究。圖中顯示的是一個(gè)二次元形象,我們還做了 Q 版的卡通形象和 3D 形象,結(jié)合自研的唇形生成算法和動(dòng)作生成算法,可以使其達(dá)到自然的狀態(tài)。

最后一部分是 AI 檢測(cè)的具體部分。其中場(chǎng)景識(shí)別可以檢測(cè)不同的場(chǎng)景,如城市、鄉(xiāng)村等。還有人物識(shí)別,同時(shí)天空和氣象是車輛剪輯特殊的應(yīng)用場(chǎng)景,針對(duì)這兩個(gè)特殊場(chǎng)景我們也進(jìn)行了天空檢測(cè)和氣象檢測(cè),天空檢測(cè)對(duì)云朵、天空顏色等進(jìn)行檢測(cè),氣象檢測(cè)對(duì)風(fēng)霜雨雪(主要是雪和雨)、晴天進(jìn)行檢測(cè)。結(jié)合其他的檢測(cè),最終可得到對(duì)畫(huà)面的全面的預(yù)知。
我今天的分享到此結(jié)束,謝謝大家!
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




