- +1
專訪即構(gòu)科技李凱:音視頻的有趣、行業(yè)前沿一直吸引著我
編者按: 超分辨率(Super resolution)是指通過(guò)硬件或軟件的方法提高原有圖像的分辨率,通過(guò)一系列低分辨率的圖像來(lái)得到一幅高分辨率的圖像過(guò)程就是超分辨率重建。隨著視頻需求不斷增長(zhǎng),人們對(duì)于視頻畫質(zhì)的要求也越來(lái)越高。即構(gòu)科技推出的基于深度學(xué)習(xí)的自研超分技術(shù),通過(guò) AI 算法放大原有圖像的分辨率來(lái)提升畫質(zhì),有效解決了用戶所面對(duì)的畫質(zhì)差、設(shè)備性能消耗等問題。
近日,LiveVideoStack 邀請(qǐng)到了即構(gòu)科技視頻處理工程師李凱,請(qǐng)他來(lái)跟我們聊聊即構(gòu)自研移動(dòng)端實(shí)時(shí)超分辨率技術(shù)的優(yōu)勢(shì)與應(yīng)用場(chǎng)景,在移動(dòng)端實(shí)現(xiàn)此技術(shù)所遇到的挑戰(zhàn)與困難,即構(gòu)所采取的應(yīng)對(duì)策略等。此外,李凱老師向我們分享了他有趣的入行經(jīng)歷以及學(xué)習(xí)數(shù)學(xué)對(duì)于技術(shù)的重要性,熱愛閱讀的他還向技術(shù)開發(fā)人員推薦了《心流》一書。

即構(gòu)視頻處理工程師 李凱
LiveVideoStack:李老師,您好,歡迎您參加我們的訪談,雖然您已經(jīng)是我們 LiveVideoStack 的老朋友了,但還是請(qǐng)您向我們的新讀者簡(jiǎn)單介紹一下自己以及您負(fù)責(zé)的工作。
李凱: 從業(yè)視頻處理 18 年以來(lái),我的工作涉及單 / 多攝像機(jī)采集及拼接、攝像機(jī) 3A、基于傳統(tǒng)和 AI 的視頻增強(qiáng)處理、極輕量級(jí)模型設(shè)計(jì)及推理框架優(yōu)化、多投影儀弧幕自動(dòng)拼接系統(tǒng)、裸眼立體顯示等;署名專利 100 + 篇,國(guó)內(nèi)授權(quán)專利 80 + 篇,美國(guó)授權(quán) 50 + 篇;目前任職于即構(gòu)科技,主要負(fù)責(zé)視頻處理業(yè)務(wù)、極輕量級(jí)模型設(shè)計(jì)及推理框架優(yōu)化。
| 走近李凱
LiveVideoStack:您當(dāng)初是怎么進(jìn)入音視頻領(lǐng)域的?您覺得音視頻最吸引您的地方是什么?
李凱: 音視頻的有趣、行業(yè)前沿,一直吸引著我。
我的入行經(jīng)歷如下:
2007 年搞深度攝像頭、裸眼立體顯示器,深度參與了端到端的裸眼立體顯示和交互系統(tǒng);
2008 年~2009 年,開發(fā)業(yè)界第一款共光心攝像機(jī),解決多攝像機(jī)拼接深度層次問題;
2010 年,開發(fā)業(yè)界第一款多投影儀弧幕拼接系統(tǒng);
2011 年~2013 年,進(jìn)行會(huì)議系統(tǒng)攝像機(jī) 3A 及會(huì)議相關(guān)圖像校正。

之后,負(fù)責(zé)行業(yè)第一款實(shí)時(shí)視頻聊天美顏、濾鏡、在線教育場(chǎng)景中第一個(gè)強(qiáng)交互偽 AI 直播的研發(fā)工作,以及至今的基于 RTC/RTE 的視頻增強(qiáng)方案研發(fā),音視頻技術(shù)的有趣一路伴隨于我。
LiveVideoStack:李老師,您大學(xué)是學(xué)數(shù)學(xué)的,又當(dāng)過(guò)大學(xué)數(shù)學(xué)老師,您可不可以跟我們談?wù)剶?shù)學(xué)對(duì)于技術(shù)的重要性?
李凱: 我總結(jié)了四點(diǎn)內(nèi)容:
世界上任何客觀存在的事物都能用數(shù)學(xué)原理去解釋,數(shù)學(xué)為解決問題提供工具,鍛煉人的邏輯思維,可以將非結(jié)構(gòu)化的事物最終處理為有結(jié)構(gòu)的認(rèn)知;
數(shù)學(xué)始終影響著我們,影響我們思考問題的角度,解決問題的方式。做事有板有眼,先確定可行性、存在性,再求解,喜歡 123 這樣來(lái)講故事,把所做的事情結(jié)構(gòu)化細(xì)分,而這正是程序員們所要具備的基本素養(yǎng);
搞數(shù)學(xué)和搞技術(shù)的人,都喜歡刨根問底,把道理想清楚,把技術(shù)落到需求實(shí)處;
在確定性與不確定性上,有人喜歡追求確定性,堅(jiān)持非黑即白;有人創(chuàng)新,覺得必然會(huì)有灰度,沒有百分百的確定性,否則就沒有創(chuàng)新,比如用概率思考問題。
LiveVideoStack:我們知道您平時(shí)很喜歡閱讀,可否分享一本您認(rèn)為對(duì)技術(shù)開發(fā)人員很有幫助的書?
李凱: 我平常比較喜歡看心理學(xué)方面的書籍,是想不斷地了解自我,用《心流》去驅(qū)動(dòng)自我。
《心流》這本書告訴我們:當(dāng)技能和業(yè)務(wù)需求匹配,并且及時(shí)反饋業(yè)務(wù)解決程度,碼農(nóng)就會(huì)處于心流狀態(tài);當(dāng)技能遠(yuǎn)低于業(yè)務(wù)需求時(shí),會(huì)焦慮,不安,躁動(dòng);當(dāng)技能遠(yuǎn)高于業(yè)務(wù)需求時(shí),會(huì)覺得無(wú)聊、無(wú)趣;在心流通道里,技能不斷提升,長(zhǎng)期樂此不疲。在焦慮和無(wú)聊狀態(tài)下,很容易放棄。
程序員工作時(shí)如何進(jìn)入心流狀態(tài)呢?
清晰的目標(biāo),不斷結(jié)構(gòu)化細(xì)分工作任務(wù);
得到立即的反饋;
能力與挑戰(zhàn)難度相匹配,避免焦慮或無(wú)聊,進(jìn)入到心無(wú)旁騖的狀態(tài),這樣是個(gè)正反饋過(guò)程,而不覺得累,是不斷自我更新上升。

《心流》
| 創(chuàng)新即構(gòu)
LiveVideoStack:我們了解到,即構(gòu)科技在今年上半年推出了自研移動(dòng)端實(shí)時(shí)超分辨率技術(shù),這項(xiàng)技術(shù)主要用于哪些場(chǎng)景?它具有哪些優(yōu)勢(shì)?
李凱: 即構(gòu)科技自研移動(dòng)端實(shí)時(shí)超分辨率技術(shù)主要用于移動(dòng)端實(shí)時(shí)視頻通話、直播、點(diǎn)播等場(chǎng)景。
它的優(yōu)勢(shì)可以總結(jié)為:
更快,極低功耗,極低耗時(shí)!
更好,提升視頻主觀質(zhì)量!
更低,結(jié)合編解碼,實(shí)現(xiàn)高清畫質(zhì)下的極低碼率!
更廣,覆蓋更多機(jī)型!
LiveVideoStack:在移動(dòng)端實(shí)現(xiàn)實(shí)時(shí)超分辨率技術(shù),主要有哪些難點(diǎn)?即構(gòu)又是如何克服的?
李凱: 如何讓超分在移動(dòng)端實(shí)時(shí)跑起來(lái)是一個(gè)巨大的挑戰(zhàn):
首先,移動(dòng)端實(shí)時(shí)視頻分辨率比較低(640x480 左右),而移動(dòng)手機(jī)顯示屏分辨率一般都比較高(1920x1080,甚至到 2340x1080),如 Apple 13 Pro Max 顯示屏分辨率為 2778 x 1284;
其次,每幀處理耗時(shí)要低于 30 毫秒(640x360 超分到 1280x720),否則會(huì)有明顯的卡頓;
最后,超分處理后,相對(duì)于沒開啟超分,圖像或視頻是要有明顯的主觀、客觀的質(zhì)量提升。
那么,基于深度學(xué)習(xí)的超分網(wǎng)絡(luò)模型設(shè)計(jì)也需要面臨挑戰(zhàn):
挑戰(zhàn)一:網(wǎng)絡(luò)模型參數(shù)量過(guò)大,一般都大于 500K;
挑戰(zhàn)二:模型運(yùn)算量過(guò)大,推理時(shí)非常慢,一般都大于 100G FLOPs;
挑戰(zhàn)三:超分區(qū)別于其他計(jì)算機(jī)視覺如目標(biāo)檢測(cè)與跟蹤技術(shù),不能對(duì)輸入的圖像或視頻進(jìn)行縮?。?/p>
挑戰(zhàn)四:同一模型不同 Mobile GPU 上運(yùn)行,性能峰值差異大。
即構(gòu)在面臨上述四個(gè)挑戰(zhàn)時(shí),做了如下研究:
指導(dǎo)模型設(shè)計(jì):什么樣的模型才是最好的匹配移動(dòng)端的候選網(wǎng)絡(luò)模型,以減少訓(xùn)練次數(shù);
極輕量級(jí)模型設(shè)計(jì):在適配移動(dòng)端設(shè)備時(shí),主客觀效果相對(duì)于大模型不顯著下降,且顯著優(yōu)于傳統(tǒng)插值放大算法;
模型量化壓縮及加速,及工程化;
基于 Roofline 理論,度量 Mobile GPU 特性,優(yōu)化推理引擎,動(dòng)態(tài)調(diào)整,提升運(yùn)算峰值。
LiveVideoStack:2022 年下半年,您將在視頻技術(shù)上有哪些新的想法?
李凱: 無(wú)論基于傳統(tǒng)還是 AI 的技術(shù),最難的都是如何在覆蓋機(jī)型廣的情況下,能夠在移動(dòng)端實(shí)時(shí)跑起來(lái)。
視頻處理技術(shù),一般都是參考前后幀間的運(yùn)動(dòng)信息,無(wú)論是塊匹配還是光流,帶來(lái)的運(yùn)算是巨量的,如何設(shè)計(jì)極輕量級(jí)的網(wǎng)絡(luò)模型或者在不真正計(jì)算運(yùn)動(dòng)或光流信息的情況下,迅速獲得幀間對(duì)應(yīng)關(guān)系,同時(shí)獲得性能和效果的折中,是每一位從業(yè)人員面對(duì)的難題。
簡(jiǎn)述就是:
如何設(shè)計(jì)目標(biāo)平臺(tái)的網(wǎng)絡(luò)結(jié)構(gòu):結(jié)合 Roofline,Mobile GPU 硬件算力,推理引擎的特點(diǎn),設(shè)計(jì)極輕量級(jí)的網(wǎng)絡(luò)模型,而該模型在不同的 Mobile GPU 均能達(dá)到當(dāng)前運(yùn)算峰值;
如何計(jì)算幀間信息:參考幀間的光流信息(計(jì)算與不計(jì)算)而獲得幀間運(yùn)動(dòng)物體的信息。
如何度量:以人眼感觀效果為主,而不是客觀評(píng)價(jià)值。
| 展望未來(lái)
LiveVideoStack:在視頻處理技術(shù)領(lǐng)域,未來(lái) 5 到 10 年,您認(rèn)為還會(huì)出現(xiàn)哪些大的創(chuàng)新?AI 技術(shù)在其中又會(huì)發(fā)揮什么樣的作用?
李凱: 首先,在未來(lái)基于 AI 技術(shù),視頻處理在各行業(yè)應(yīng)用具有巨大的潛力,如安防、智能制造、醫(yī)療、教育、電商零售和金融等各行業(yè)垂直領(lǐng)域,也會(huì)在行業(yè)應(yīng)用中創(chuàng)新。
視頻處理技術(shù)在移動(dòng)端耗費(fèi)巨大算力,必然會(huì)在未來(lái)提升 NPU 算力,以支持各種視頻處理業(yè)務(wù),而 AI 芯片關(guān)鍵在于成功整合軟硬件,我們即構(gòu)也在和芯片廠商合作,共建生態(tài)。
在一些 VR/AR 場(chǎng)景中,AI 會(huì)讓交互變得高度自然。
不過(guò) AI 自主學(xué)習(xí)是終極目標(biāo),短期內(nèi)如小孩智力,但會(huì)快速成長(zhǎng)到成人智商。
LiveVideoStack:您進(jìn)入音視頻領(lǐng)域已經(jīng)有 18 年時(shí)間了,對(duì)于整個(gè)行業(yè)的發(fā)展,您有什么樣的愿景?
李凱: 我希望行業(yè)能夠不斷提升技術(shù)價(jià)值、推進(jìn) AI 技術(shù)發(fā)展,并將 AI 技術(shù)與音視頻最大限度結(jié)合:
技術(shù)價(jià)值,只有服務(wù)于用戶,才是有價(jià)值的技術(shù),普及更多的用戶,才能價(jià)值擴(kuò)大化;
AI 技術(shù), 性能最小化,效果最大化,漸進(jìn)往端上設(shè)備遷移,漸進(jìn)落實(shí)到芯片中;
AI 技術(shù)促進(jìn)音視頻技術(shù),讓音視頻更加清晰、流暢、穩(wěn)定。
LiveVideoStack:您將參加在上海舉辦的 LiveVideoStackCon2022 音視頻技術(shù)大會(huì),您是否可以透露一下,會(huì)上將做哪些分享?
李凱: AI 技術(shù)落地是漸漸地從服務(wù)器端、云端落地,逐步到移動(dòng)端及邊緣設(shè)備上。隨著這些年 AI 技術(shù)的進(jìn)步,輕量級(jí)算法模型在移動(dòng)端實(shí)時(shí)跑起來(lái),移動(dòng)端算法在不斷迭代和完善,而對(duì)于實(shí)時(shí)直播場(chǎng)景,越來(lái)越多的 AI 算法落地,如:基于人臉的各類娛樂玩法、人體姿態(tài)識(shí)別、背景替換等。
隨著算法不斷完善、硬件能力的不斷提升,基于 AI 的實(shí)時(shí)視頻增強(qiáng)處理技術(shù)也落地于實(shí)時(shí)直播或視頻通話場(chǎng)景。而對(duì)于很多涉及隱私的場(chǎng)景,越來(lái)越多的用戶期望 AI 技術(shù)能夠本地化,不經(jīng)過(guò)云端。針對(duì)消耗更多算力的視頻云轉(zhuǎn)碼,在面對(duì)移動(dòng)端本地化需求時(shí),我們即構(gòu)科技提出一套極輕量級(jí) AI 算法模型,結(jié)合移動(dòng)端硬件特性,差異化優(yōu)化前饋推理庫(kù),讓算法模型、推理庫(kù)、硬件成為一體,使得視頻云轉(zhuǎn)碼移動(dòng)端化成為可能。我將在大會(huì)上對(duì)此進(jìn)行分享。
* 封面圖來(lái)自 Unsplash,By Frederick Medina

掃描圖中二維碼了解大會(huì)更多信息
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2026 上海東方報(bào)業(yè)有限公司




