欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

  • +1

SNPbag基因大模型發(fā)布:親緣關(guān)系判定效率較傳統(tǒng)方法提高數(shù)十倍

澎湃新聞?dòng)浾?季敬杰
2026-01-15 10:30
來(lái)源:澎湃新聞
? 生命科學(xué) >
聽(tīng)全文
字號(hào)

·AI通過(guò)“完形填空”的方式學(xué)習(xí)基因組中約600萬(wàn)個(gè)常見(jiàn)SNP位點(diǎn)之間復(fù)雜的相互關(guān)聯(lián)規(guī)律,理解遺傳的“語(yǔ)法”。

人類(lèi)基因組里包含著超過(guò)30億個(gè)堿基對(duì),如何從中高效、系統(tǒng)地解讀出與健康、疾病、體質(zhì)特征相關(guān)的奧秘,一直是現(xiàn)代生物學(xué)面臨的巨大挑戰(zhàn)。人工智能基礎(chǔ)模型正成為突破這一瓶頸的關(guān)鍵力量。

1月13日,在上?!澳K倏臻g”,基因底座大模型SNPbag正式發(fā)布,該模型旨在解決當(dāng)前基因組學(xué)研究中面臨的計(jì)算效率低、數(shù)據(jù)碎片化以及預(yù)測(cè)能力不足等難題,試圖通過(guò)AI技術(shù)“讀懂”DNA與人類(lèi)生命特征之間復(fù)雜的關(guān)聯(lián)。模型作者包括上海飛瀑智能科技有限公司、德國(guó)萊比錫大學(xué)、華大基因研究院、中國(guó)科學(xué)院等多家單位的研究人員。

人類(lèi)的DNA序列有99.9%是完全相同的,剩下0.1%的差異造就了我們每個(gè)人獨(dú)一無(wú)二的體質(zhì)、外貌和疾病易感性。這些差異大多以單個(gè)堿基變化的形式存在,即單核苷酸多態(tài)性(SNP)。SNPbag正是專(zhuān)為分析這些關(guān)鍵差異位點(diǎn)而設(shè)計(jì)的。

該模型的作者們?cè)谙嚓P(guān)論文中提到,基于Transformer架構(gòu)的大語(yǔ)言模型已經(jīng)改變了生物醫(yī)學(xué)研究。在蛋白質(zhì)組學(xué)中,AlphaFold 能夠準(zhǔn)確預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)并加速藥物發(fā)現(xiàn)。在單細(xì)胞轉(zhuǎn)錄組學(xué)中,Geneformer、scGPT 和 scBERT 等模型支持細(xì)胞類(lèi)型注釋以及擾動(dòng)響應(yīng)預(yù)測(cè)。在基因組學(xué)中,包括 Nucleotide Transformer和 EVO在內(nèi)的模型能夠處理跨多物種的完整基因組序列,用于注釋基因組元素。

“相比之下,對(duì)于單一物種的基因組數(shù)據(jù),例如人類(lèi)基因組,仍然缺乏能夠應(yīng)對(duì)個(gè)體之間巨大基因組變異的人工智能基礎(chǔ)模型。” 該論文寫(xiě)道。

“我們訓(xùn)練模型的數(shù)據(jù),就是這0.1%的人與人之間的基因差別,那些99.9%重復(fù)的部分被拿掉了。”該模型的作者之一徐國(guó)華告訴澎湃科技,“這使得我們能夠節(jié)省海量的算力,這也是它與其他一些基因組模型的核心區(qū)別之一?!?/p>

徐國(guó)華曾在德國(guó)馬克思·普朗克演化人類(lèi)學(xué)研究所做研究,師從2022年諾獎(jiǎng)得主、生物學(xué)家斯萬(wàn)特·佩博(Svante P??bo)。他告訴記者,目前僅用SNP數(shù)據(jù)進(jìn)行訓(xùn)練的基因大語(yǔ)言模型只有SNPbag,其研發(fā)難度主要在于開(kāi)發(fā)者需要對(duì)遺傳學(xué)和大模型都非常了解。

該模型的另一位作者、飛瀑科技創(chuàng)始合伙人兼首席科學(xué)家唐鯤在發(fā)布會(huì)上表示,團(tuán)隊(duì)成員的背景多樣,包括腫瘤醫(yī)學(xué)、計(jì)算生物學(xué)等,“既要懂生物又要懂計(jì)算,只有這樣的團(tuán)隊(duì)能把它做出來(lái)?!?/p>

與當(dāng)前主流的語(yǔ)言大模型(如ChatGPT)類(lèi)似,SNPbag也采用了強(qiáng)大的Transformer架構(gòu)。研究團(tuán)隊(duì)用100萬(wàn)個(gè)模擬基因組數(shù)據(jù)對(duì)一個(gè)擁有8.4億參數(shù)的模型進(jìn)行預(yù)訓(xùn)練,讓AI通過(guò)“完形填空”的方式學(xué)習(xí)基因組中約600萬(wàn)個(gè)常見(jiàn)SNP位點(diǎn)之間復(fù)雜的相互關(guān)聯(lián)規(guī)律,理解遺傳的“語(yǔ)法”。通過(guò)這種學(xué)習(xí),SNPbag構(gòu)建起了一個(gè)能貫通多種遺傳分析任務(wù)的底層能力。

發(fā)布會(huì)上,唐鯤列舉了該模型的多種用處。過(guò)去,要分析一個(gè)人的祖源、推斷其與其他人的親緣關(guān)系、或補(bǔ)全基因測(cè)序中的缺失數(shù)據(jù),研究者需要使用不同的統(tǒng)計(jì)軟件,過(guò)程耗時(shí)且相互獨(dú)立。SNPbag則將這些任務(wù)整合到一個(gè)統(tǒng)一的平臺(tái)之上,模型只需經(jīng)過(guò)少量微調(diào),就能勝任多種下游任務(wù)。

發(fā)布會(huì)演示顯示,該模型能精準(zhǔn)區(qū)分出遺傳背景高度相似的人群,也能可靠地推斷出遠(yuǎn)至12代的親緣關(guān)系,其性能在部分任務(wù)上已達(dá)到或超過(guò)傳統(tǒng)方法的水平,而計(jì)算速度則實(shí)現(xiàn)了數(shù)十倍乃至上百倍的提升。

SNPbag還展示了一項(xiàng)極具潛力的功能——高效的基因組壓縮和加密。一個(gè)人的全基因組SNP原始數(shù)據(jù)包含數(shù)百萬(wàn)行記錄,給表型預(yù)測(cè)帶來(lái)巨大挑戰(zhàn)。SNPBag模型能將這些海量信息壓縮成38萬(wàn)個(gè)數(shù)字,還保留了95%以上的核心遺傳信息。

經(jīng)過(guò)壓縮后的個(gè)人基因組信息。圖片來(lái)自SNPbag論文

徐國(guó)華表示,這38萬(wàn)個(gè)數(shù)字能夠極大降低后續(xù)的開(kāi)發(fā)難度,SNPBag有望通過(guò)壓縮的基因組訓(xùn)練出很多預(yù)測(cè)表型的能力。此外,一個(gè)人的基因組壓縮,還能存儲(chǔ)在一個(gè)僅有0.75MB大小的文件中。這意味著,未來(lái)個(gè)人的基因組“身份證”或許可以輕松地存儲(chǔ)在U盤(pán)或手機(jī)中,在保障數(shù)據(jù)隱私和安全的前提下,極大地便利了大規(guī)??蒲袇f(xié)作和臨床應(yīng)用。

“這個(gè)模型是一個(gè)起點(diǎn)?!碧砌H表示,其最終目標(biāo)是建立從基因型到表型(即身高、相貌、疾病風(fēng)險(xiǎn)等個(gè)體特征)的精準(zhǔn)預(yù)測(cè)能力。唐鯤團(tuán)隊(duì)之前曾開(kāi)發(fā)通過(guò)DNA信息預(yù)測(cè)外貌的算法,在刑偵等領(lǐng)域大有用處。他告訴澎湃科技,采用新的底座模型后,有望提升面部還原算法的準(zhǔn)確度和泛化能力。

    責(zé)任編輯:宦艷紅
    圖片編輯:金潔
    校對(duì):丁曉
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司