- +1
AI觀察|AI賦能科學發(fā)現(xiàn):數(shù)據壁壘是關鍵痛點
人工智能與科學研究正在深度融合,深刻塑造科學的未來。
去年11月,美國總統(tǒng)特朗普簽署行政命令,啟動全新國家計劃“創(chuàng)世紀計劃”,旨在整合美國超級計算機和獨特數(shù)據資產,利用人工智能變革科學研究方式、加速科學發(fā)現(xiàn)。英國去年11月發(fā)布的AI for Science戰(zhàn)略將采取15項具體行動,旨在鞏固英國在人工智能推動科學突破領域的全球領導者地位。
日前,多位青年科學家在上??茖W智能研究院的一場AI for Science座談會上不約而同提到,數(shù)據壁壘是AI for Science的關鍵痛點之一。AI不僅需要大量數(shù)據,還需要差異化的數(shù)據。沒有數(shù)據“下鍋”,就難以煉出好模型。AI for Science也不應止步于科學發(fā)現(xiàn),而是選擇兼具產業(yè)基礎、技術優(yōu)勢和數(shù)據積累的領域先行先試,探索從研究到應用的市場閉環(huán)。
沒有數(shù)據“下鍋”,就難以煉出好模型
新能源汽車已成為我國經濟發(fā)展的重要引擎,鋰電池是當前的主流技術。固態(tài)電池是以固體電解質替代傳統(tǒng)液態(tài)或凝膠電解液的二次電池體系,具有高能量、高安全性優(yōu)勢。固態(tài)電池上車是下一代電池的突破方向之一。
上海交通大學副教授、未來電池研究中心執(zhí)行主任萬佳雨從事固態(tài)電解質開發(fā),他直言,盡管當前新材料層出不窮,但在固態(tài)電池領域,真正有用的材料不過十幾類,按照大類來算僅有三類。“巧婦難為無米之炊,在模型訓練中,如果沒有數(shù)據 ‘下鍋’,就難以訓出一個好模型?!?/p>
在生物領域,蛋白質是生物制造的底層材料。過去,開發(fā)一款成功的蛋白質產品高度依賴科學家經驗,過程漫長且試錯成本高昂,成功率偏低。由于蛋白質研發(fā)設計技術門檻高,導致蛋白質研發(fā)供給不足,優(yōu)質蛋白產品國際壟斷嚴重,尤其是我國70%的工業(yè)酶依賴進口。利用AI高效設計蛋白質,關鍵在于攻克蛋白質功能預測,而數(shù)據是重中之重。
“AI需要數(shù)據,不僅數(shù)據量要大,而且數(shù)據的差異化也要大?!鄙虾=煌ù髮W特聘教授、天鶩科技首席科學家洪亮團隊開發(fā)了AI蛋白質設計平臺Venus,他們讓大模型學習高溫、高壓、高酸、高堿等極端工況下的蛋白質功能,輔助設計蛋白質,并以此開發(fā)了全球首款由大模型設計且實現(xiàn)工業(yè)化生產的蛋白質。
“這套策略做得好,完全依賴于底層數(shù)據的規(guī)模和質量?!睘榱私鉀Q數(shù)據問題,洪亮團隊組建了全球最大的蛋白質數(shù)據庫,收集了150億條蛋白質序列,其中67億條私有數(shù)據中,既有來自馬里亞納海溝的深海蛋白數(shù)據,也有中國大西北的鹽湖蛋白數(shù)據。
“我們在數(shù)據層面遇到的核心痛點并非數(shù)據獲取難,而在于高度非標準化。”洪亮表示,各方提供的數(shù)據格式各異,缺乏統(tǒng)一規(guī)范。為了清洗每一條序列并標準化標注,團隊為65億條蛋白質數(shù)據打上環(huán)境標簽,才將原始的“雜亂”數(shù)據轉化為可用的研究數(shù)據。
協(xié)同合作打破數(shù)據壁壘,探索市場閉環(huán)
數(shù)據采集、專業(yè)的數(shù)據標注與數(shù)據共享是推進AI for Science不可或缺的關鍵要素。
“許多科學領域的專業(yè)數(shù)據并不公開,缺少團隊投入資源,去完成那些繁瑣的數(shù)據加工工作,但AI for Science的數(shù)據一定要共享?!鄙虾?茖W智能研究院副院長程遠介紹,上海科學智能研究院旗下星河啟智科學智能開放平臺的數(shù)據廣場建成超4萬個高質量科學數(shù)據集,數(shù)據總量達12PB。
上??茖W智能研究院的經驗是構建多梯度的人才體系:20多位專職數(shù)據工程師從事數(shù)據加工和批量化處理,200多位在校學生和雇傭人員專職從事數(shù)據標注,1000多位眾包人員承擔數(shù)據校驗和初級標注。除了豐富的科學語料資源和海量數(shù)據儲備,平臺的數(shù)據加工工具確保數(shù)據質量和科研可用性,明晰的數(shù)據權屬機制推動數(shù)據合規(guī)生產和開放共享?!拔覀兣c高校、企業(yè)合作,加工和開放了16個領域的專業(yè)數(shù)據。他們既是平臺使用者,也是建設者,貢獻了數(shù)據和新模型?!?/p>
去年9月,上海人工智能實驗室聯(lián)合合肥實驗室、臨港實驗室等12家國家實驗室成立上??茖W智能戰(zhàn)略科技力量聯(lián)盟,同時吸引眾多高校和科研機構加入,共同梳理聯(lián)盟體系內的各學科數(shù)據,打破數(shù)據壁壘。
上海人工智能實驗室青年科學家、科學智能中心負責人白磊認為,要推動AI for Science的實質進展,首先必須清晰界定AI特別是AGI(通用人工智能)在科學領域的能力表現(xiàn),系統(tǒng)解析不同學科和科研流程對AI能力的差異化需求,摒棄“胡子眉毛一把抓”。與此同時,AI for Science在模型訓練階段投入巨大,海量數(shù)據整合與算力支撐必然要求集結更廣泛的力量協(xié)同攻關,加強合作。
AI的賦能也不應止步于科學發(fā)現(xiàn)。上海大學材料基因組工程研究院副教授高兆和表示,AI for Science要從科學研究落地工程,實現(xiàn)從研究到產業(yè)的貫通,否則任何技術突破都只是曇花一現(xiàn)。
在洪亮看來,AI for Science的發(fā)展有其客觀規(guī)律,不同學科的商業(yè)化程度、數(shù)據積累和技術能力不同,應當選擇兼具產業(yè)基礎、技術優(yōu)勢和數(shù)據積累的領域先行先試,建立以智能體為核心的科研生態(tài),探索從研究到應用的市場閉環(huán)。AI for Science的可持續(xù)發(fā)展必然依托于強大的生態(tài)體系,要通過生態(tài)鏈接,有效承接技術與需求,釋放AI設計能力。在這一過程中,政府的角色是引導、搭臺、共建,待模式成熟后逐步有序退出。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網新聞信息服務許可證:31120170006
增值電信業(yè)務經營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




