- +1
陳佳玉|以強化學(xué)習(xí)“利劍” 破復(fù)雜控制之門
人工智能與高端工程交叉融合創(chuàng)新的年代,當(dāng)可控核聚變裝置需精準(zhǔn)駕馭“像太陽一樣熾熱”的等離子體,人形機(jī)器人要在動態(tài)場景中實現(xiàn)靈活協(xié)作……基于強化學(xué)習(xí)的復(fù)雜控制研究亦如香港大學(xué)助理教授陳佳玉手中的一把“利劍”,助他突破這些技術(shù)發(fā)展瓶頸,在復(fù)雜控制的未知疆域中開辟出新的路徑。

▲陳佳玉
燕園筑基 海外篤行
陳佳玉的學(xué)術(shù)啟蒙始于北京大學(xué)(簡稱“北大”),彼時北大推行大類招生,他在信息科學(xué)與工程學(xué)部打下扎實的力學(xué)根基——這門工程學(xué)科的“通用語言”,為他日后跨界探索埋下伏筆。深知跨學(xué)科價值的他,同步輔修計算機(jī)雙學(xué)位,在力學(xué)的嚴(yán)謹(jǐn)推演與計算機(jī)的靈活迭代間搭建起跨學(xué)科的認(rèn)知橋梁。
北大為陳佳玉提供了跨學(xué)科學(xué)習(xí)的平臺。在趙卉菁教授的引導(dǎo)下,他大二便參與自動駕駛相關(guān)項目研究,從感知層的語義地圖構(gòu)建,到行為決策層的強化學(xué)習(xí)應(yīng)用……他一步步明確了對機(jī)器學(xué)習(xí),尤其是強化學(xué)習(xí)的研究興趣。
2020年,陳佳玉遠(yuǎn)赴美國普渡大學(xué)攻讀博士學(xué)位。不同于本科時的“廣探索”,他博士生涯的核心是“深鉆研”——將研究重心轉(zhuǎn)向強化學(xué)習(xí)的理論內(nèi)核。彼時全球?qū)W界正處于阿爾法圍棋(AlphaGo)熱潮后的“理論補位期”,基于時序抽象的強化學(xué)習(xí)決策及其在多智能體系統(tǒng)的應(yīng)用等理論空白亟待填補,陳佳玉跳出具體應(yīng)用場景構(gòu)建強化學(xué)習(xí)通用理論框架,解決了競爭與協(xié)作多智能體系統(tǒng)中挖掘和利用時序抽象以顯著提升決策效率等關(guān)鍵問題。
博士畢業(yè)后,陳佳玉選擇在卡內(nèi)基梅隆大學(xué)機(jī)器人研究所開啟博士后研究,這一次,他將目光投向頗具戰(zhàn)略意義的應(yīng)用場景——可控核聚變??煽睾司圩儽灰暈椤敖K極能源”,卻因物理過程與工程系統(tǒng)的復(fù)雜性,長期面臨精確過程控制的重大挑戰(zhàn)。在卡內(nèi)基梅隆大學(xué)與普林斯頓大學(xué)的跨校合作項目中(美國能源部專項支持),陳佳玉和團(tuán)隊成員創(chuàng)新性地基于來自通用原子公司托卡馬克裝置的海量實驗數(shù)據(jù),跳過傳統(tǒng)控制理論對“物理公式”的依賴,直接利用強化學(xué)習(xí)從離線數(shù)據(jù)中提取魯棒性控制策略。2024年4月,他參與的實驗取得突破——首次實現(xiàn)等離子體密度/旋度分布與預(yù)設(shè)分布的高度匹配,打破了傳統(tǒng)控制技術(shù)“僅能控制均值”的局限。
香江筑夢 研途躬行
2025年,陳佳玉選擇加入香港大學(xué)。香港憑借其東西方文化樞紐的獨特地位,不僅能夠連接國際前沿動態(tài),還能緊密對接內(nèi)地的資源和重大需求,為他的學(xué)術(shù)發(fā)展?fàn)I造了理想的環(huán)境。
在香港大學(xué)的鼎力支持下,陳佳玉的實驗室建設(shè)有序推進(jìn)。他的研究布局既延續(xù)了之前的方向——計劃將基于強化學(xué)習(xí)的數(shù)據(jù)驅(qū)動核聚變控制技術(shù)對接國內(nèi)的托卡馬克裝置,助力相關(guān)領(lǐng)域的戰(zhàn)略需求;也開拓了新的賽道——將科研啟動基金投入人形機(jī)器人與雙臂家居機(jī)器人的研發(fā)。盡管這是一個新的研究方向,陳佳玉堅信,基于強化學(xué)習(xí)的復(fù)雜控制研究同樣可以在該領(lǐng)域取得重大突破,推動機(jī)器人真正融入人們的日常生活。
團(tuán)隊建設(shè)上,陳佳玉延續(xù)自身受益的培養(yǎng)模式,他引導(dǎo)學(xué)生全程參與科研,錘煉全??蒲心芰?,更強調(diào)以“解決真問題”為導(dǎo)向開展科研等。這種模式既為團(tuán)隊蓄能,也讓成員清晰感知科研的現(xiàn)實意義。
“強化學(xué)習(xí)在復(fù)雜控制領(lǐng)域的應(yīng)用仍面臨諸多挑戰(zhàn),尤其是在泛化性和魯棒性方面,有待我們持續(xù)深入探索?!边@是陳佳玉對團(tuán)隊的期待,也是他對自己研究方向的堅持。從在北大打下跨學(xué)科基礎(chǔ),到在強化學(xué)習(xí)領(lǐng)域多個研究殿堂深入探索且嘗試應(yīng)用,再到如今在香港大學(xué)帶著團(tuán)隊往前走,他始終一步一個腳印。未來幾年,他想和團(tuán)隊在細(xì)分領(lǐng)域多做些實在成果,盼著研究緊扣核聚變、具身智能等領(lǐng)域的發(fā)展脈搏,借技術(shù)之力為國家重大需求增光添彩。
本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




