欧美成人A片免费|日韩无码一级av|一级黄色大片在线播放|黄片视频在线观看无码|亚洲精品成人无码影视|婷婷五月天视频网站|日韩三级AV在线播放|姓爱av在线婷婷春色五月天|真人全黃色录像免费特黄片|日本无码黄在线观看下载

  • +1

“生化版”阿爾法狗來了,生命密碼的馬奇諾防線崩了

2020-12-05 08:50
來源:澎湃新聞·澎湃號(hào)·湃客
聽全文
字號(hào)

原創(chuàng) 孫滔、戴晉 全現(xiàn)在 收錄于話題#我們需要的趣聞與新知108個(gè)

專注深度報(bào)道的新媒體不多,請(qǐng)關(guān)注全現(xiàn)在

作者 | 孫滔、戴晉

全文共 3175 字,閱讀大約需要 7 分鐘

2009年諾貝爾化學(xué)獎(jiǎng)得主拉馬克里希南表示:“這是蛋白質(zhì)折疊的驚人進(jìn)展,它解決了已經(jīng)困擾生物學(xué)家50多年的問題,比大家預(yù)期的要早幾十年。它將以多種方式從根本上改變生物學(xué)研究。”

阿爾法狗“生化版”來了,這次它出手的是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域。這個(gè)版本名為“阿爾法折疊”(AlphaFold),同樣來自谷歌旗下的“深度思維”(DeepMind)團(tuán)隊(duì)。

在剛剛結(jié)束的國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP)中,AlphaFold取得了革命性突破。在CASP的一系列測(cè)試中,AlphaFold獲得了92.4分,在最具挑戰(zhàn)的自由建模蛋白質(zhì)測(cè)試中也獲得87分。

CASP的打分機(jī)制是全局距離測(cè)試(GDT),以0到100分來衡量,其意思是,設(shè)定閾值內(nèi),預(yù)測(cè)結(jié)果正確的百分比。按照業(yè)內(nèi)觀點(diǎn),如果競(jìng)賽成績(jī)達(dá)到90分,其預(yù)測(cè)結(jié)果就可以媲美實(shí)驗(yàn)室結(jié)果了。

全局距離測(cè)試。圖片:DeepMind網(wǎng)站視頻截圖

2005年,《科學(xué)》雜志在創(chuàng)刊125周年之際,將預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)列為125個(gè)最具挑戰(zhàn)性的科學(xué)問題之一。

多年來,科學(xué)家只能通過核磁共振、X射線和冷凍電鏡技術(shù)來確定蛋白質(zhì)結(jié)構(gòu)。他們需要反復(fù)試驗(yàn),經(jīng)過持續(xù)數(shù)年的艱辛工作才能得到結(jié)果。同時(shí)這些實(shí)驗(yàn)設(shè)備極為昂貴,造價(jià)高達(dá)數(shù)百萬美元。

德國(guó)普朗克發(fā)展生物學(xué)研究所科學(xué)家安德烈·盧帕斯(Andrei Lupas)花了10年來破解一種細(xì)菌膜蛋白,窮盡已有工具均無果,而AlphaFold僅花了半個(gè)小時(shí)就得到了結(jié)果。

《科學(xué)》雜志引述盧帕斯看法稱:“他們不可能對(duì)此作弊,我不知道他們是怎么做到的?!?/p>

DeepMind博客上的一則贊譽(yù)來自拉馬克里希南(Venki Ramakrishnan,他是皇家學(xué)會(huì)會(huì)長(zhǎng)、2009年諾貝爾化學(xué)獎(jiǎng)得主)。拉馬克里希南表示:“這是蛋白質(zhì)折疊的驚人進(jìn)展,它解決了已經(jīng)困擾生物學(xué)家50多年的問題,比大家預(yù)期的要早幾十年。它將以多種方式從根本上改變生物學(xué)研究?!?/p>

01////

預(yù)測(cè)結(jié)構(gòu)有多難

經(jīng)過數(shù)億年進(jìn)化,蛋白質(zhì)成為已知結(jié)構(gòu)最為復(fù)雜、功能最為強(qiáng)大的化學(xué)分子。這個(gè)復(fù)雜的大分子由氨基酸鏈構(gòu)成,就像珠子一樣排列成長(zhǎng)鏈。這條長(zhǎng)鏈會(huì)發(fā)生折疊,指的是氨基酸串打結(jié)、卷曲成三維結(jié)構(gòu),使其發(fā)揮功能的過程。在每條蛋白質(zhì)的長(zhǎng)鏈上,每個(gè)氨基酸的位置決定了精確的三維結(jié)構(gòu)。

1972年,諾貝爾化學(xué)獎(jiǎng)得主克里斯蒂安·安芬森(Christian B. Anfinsen)在獲獎(jiǎng)感言中提出一個(gè)假設(shè):理論上,氨基酸序列應(yīng)該完全決定蛋白質(zhì)的結(jié)構(gòu)。此后近半個(gè)世紀(jì),科學(xué)家們一直希望基于氨基酸序列來計(jì)算蛋白質(zhì)的三維結(jié)構(gòu)。

蛋白質(zhì)結(jié)構(gòu)示意圖。圖片:DeepMind

識(shí)別蛋白質(zhì)的結(jié)構(gòu)極為困難,每個(gè)蛋白質(zhì)理論上存在的可能構(gòu)象都是天文數(shù)字。1969年,美國(guó)分子生物學(xué)家利文索爾(Cyrus Levinthal)指出,未折疊的多肽鏈有天文數(shù)量的自由度,比如一個(gè)由100個(gè)氨基酸殘基組成的多肽,其理論上的錯(cuò)誤構(gòu)象多達(dá)3的198次方。而最大的蛋白質(zhì),其氨基酸數(shù)量可多達(dá)上萬個(gè)。

然而每個(gè)蛋白質(zhì)一般只形成一種穩(wěn)定構(gòu)象,通常是處于最低能量狀態(tài)的構(gòu)象。

對(duì)于人工智能而言,相比于其他機(jī)器讀片或圖案識(shí)別的工作,預(yù)測(cè)蛋白質(zhì)三維結(jié)構(gòu)的難度要高出多個(gè)等級(jí)。

從事蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測(cè)的南開大學(xué)教授楊建益介紹,機(jī)器讀片處理的基本上都是二維圖像,但結(jié)構(gòu)預(yù)測(cè)要解決的是從氨基酸一維序列到三維原子水平結(jié)構(gòu)的構(gòu)建問題。

預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的復(fù)雜度與蛋白質(zhì)大小有關(guān)。從事蛋白質(zhì)設(shè)計(jì)研究的西湖大學(xué)研究員盧培龍說,蛋白質(zhì)分子越大,復(fù)雜度越大,計(jì)算機(jī)預(yù)測(cè)的難度也就越大。

每屆國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽中的最佳團(tuán)隊(duì)成績(jī)曲線。圖片:DeepMind

02////

為何是AlphaFold

AlphaFold的成績(jī)建立在全球數(shù)百名研究人員工作基礎(chǔ)上。DeepMind組建了一個(gè)由生物學(xué)家、物理學(xué)家和計(jì)算機(jī)科學(xué)家共同協(xié)作的團(tuán)隊(duì)。關(guān)于它如何工作的細(xì)節(jié)將會(huì)在本周的CASP會(huì)議上公布。

今年的國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽是第14屆。大多數(shù)參賽者來自學(xué)術(shù)機(jī)構(gòu),不過微軟和騰訊均有參加,其中有一半的參賽團(tuán)隊(duì)采用了深度學(xué)習(xí)技術(shù)。

參賽AI做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的前提是需要在17萬種已知結(jié)構(gòu)的蛋白質(zhì)數(shù)據(jù)庫(kù)中進(jìn)行訓(xùn)練。如今已有1.8億種蛋白質(zhì)得到了氨基酸序列。

相較2018年的第13屆競(jìng)賽,Deepmind這次花了數(shù)周時(shí)間就得到了預(yù)測(cè)結(jié)果。根據(jù)往屆經(jīng)驗(yàn),這一過程往往要花好幾個(gè)月。

DeepMind辦公室。圖片:DeepMind網(wǎng)站視頻截圖

他們很重要的一個(gè)策略是,研究人員將蛋白質(zhì)結(jié)構(gòu)看作空間圖,殘基是節(jié)點(diǎn),接近的殘基以邊連接。

楊建益介紹,此次AlphaFold引入了注意力機(jī)制的深度學(xué)習(xí),基于超強(qiáng)的硬件條件,相當(dāng)于100-200個(gè)GPU(計(jì)算機(jī)圖形處理器),并以蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)中的所有結(jié)構(gòu)數(shù)據(jù)來訓(xùn)練模型。其他實(shí)驗(yàn)室基本不具備這樣優(yōu)越的硬件條件。

此次AlphaFold充分利用了宏基因組數(shù)據(jù),通過端到端直接預(yù)測(cè)結(jié)構(gòu)模型,同時(shí)對(duì)模型的質(zhì)量進(jìn)行預(yù)測(cè),以選出最優(yōu)的結(jié)構(gòu)模型。與2018年的AlphaFold相比,最新的AlphaFold還在預(yù)測(cè)過程中加入了同源模板的信息。

兩年前的AlphaFold采用能量最小化的方式直接構(gòu)建結(jié)構(gòu),后期也有不少團(tuán)隊(duì)開發(fā)了類似的方法,例如楊建益課題組和華盛頓大學(xué)計(jì)算生物學(xué)教授大衛(wèi)·貝克(David Baker)實(shí)驗(yàn)室合作開發(fā)的trRosetta。然而最新的AlphaFold放棄了這類方法,而是把結(jié)構(gòu)作為圖直接預(yù)測(cè)(殘基是圖的頂點(diǎn),距離近的殘基通過邊連接)。

《經(jīng)濟(jì)學(xué)人》雜志引述該項(xiàng)目負(fù)責(zé)人約翰·姜普(John Jumper)的看法稱,2018年的AlphaFold已經(jīng)達(dá)到了能力的極限。

盧培龍說,AlphaFold的突破是基于各方面綜合的進(jìn)展而得到的,包括之前領(lǐng)域內(nèi)科學(xué)家們的成果,也包括軟件、硬件的革新。

DeepMind團(tuán)隊(duì)的首席科學(xué)家John Jumper。圖片:DeepMind

03////

全球競(jìng)賽

國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP)誕生于1994年,每?jī)赡昱e行一屆。

每屆CASP會(huì)歷時(shí)數(shù)月。初始會(huì)發(fā)布共約100個(gè)目標(biāo)蛋白或結(jié)構(gòu)域,各參賽團(tuán)隊(duì)有幾周時(shí)間提交結(jié)果。之后,一個(gè)獨(dú)立的科學(xué)家團(tuán)隊(duì)會(huì)使用打分機(jī)制來評(píng)估這些預(yù)測(cè)。

評(píng)估人員對(duì)參賽團(tuán)隊(duì)是不知情的。盧帕斯說,AlphaFold是以“427組”的名義參賽的,但其成績(jī)驚人,很多評(píng)估人員猜測(cè)該組是Deepmind團(tuán)隊(duì)。

CASP發(fā)起人、馬里蘭大學(xué)計(jì)算生物學(xué)家約翰·莫爾特(John Moult)表示,與上屆CASP相比,今年各團(tuán)隊(duì)預(yù)測(cè)結(jié)構(gòu)更加準(zhǔn)確,但大部分進(jìn)步都可以歸功于AlphaFold。

如今這個(gè)競(jìng)賽成了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的金標(biāo)準(zhǔn)。最為重要的一點(diǎn)是,他們選擇正在實(shí)驗(yàn)室進(jìn)行解構(gòu)的蛋白質(zhì)作為試題,從而保證參賽者一直處于盲測(cè)中。

AlphaFold系統(tǒng)在本屆競(jìng)賽中的平均成績(jī)是92.4分,也就是說,其誤差在1.6埃,大約是0.1納米,即1個(gè)原子大小。在最具有挑戰(zhàn)性的自由建模預(yù)測(cè)類別中,其成績(jī)是87分。

同樣的試題,其他團(tuán)隊(duì)最好成績(jī)是75分,而AlphaFold系統(tǒng)能拿到90分。

AlphaFold自由建模類別中的兩個(gè)例子。左為RNA聚合酶,右為粘附蛋白,兩者成績(jī)均超過了90分。其中綠色為實(shí)驗(yàn)室結(jié)果,藍(lán)色為計(jì)算機(jī)模擬結(jié)果。圖片:DeepMind

04////

意義與待解問題

DeepMind是一家英國(guó)公司,位于倫敦,成立于2010年。2015年,它被谷歌收購(gòu)。

過去10年,DeepMind是在學(xué)術(shù)界、科技行業(yè)和醫(yī)療界蔓延的一場(chǎng)大變革中的關(guān)鍵角色之一。除了眾所周知的阿爾法狗(AlphaGo),DeepMind還涉足健康A(chǔ)I領(lǐng)域。AlphaFold的問世也是DeepMind發(fā)展的重要節(jié)點(diǎn)。

對(duì)于實(shí)驗(yàn)室解構(gòu)難度大的蛋白質(zhì)而言,計(jì)算機(jī)預(yù)測(cè)就顯得尤為重要。比如膜蛋白對(duì)于理解信號(hào)跨膜傳導(dǎo)尤為重要,但因其難以結(jié)晶而多年來未得破解。

預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)還有助于一些疾病的理解。如鑒定失活蛋白質(zhì)并推斷其相互作用方式。

這項(xiàng)工作還可推進(jìn)藥物開發(fā),使其更加精確。不過,專家們還是提醒說,這項(xiàng)技術(shù)只會(huì)影響科學(xué)家們識(shí)別新藥和分析疾病的漫長(zhǎng)過程中的一小部分。目前尚不清楚DeepMind何時(shí)或如何與其他研究人員分享其技術(shù)。

原北京協(xié)和醫(yī)學(xué)院教授、腫瘤藥物開發(fā)者王晨光的觀點(diǎn)是,目前有些“贊譽(yù)”是Alphafold尚難以承受的。蛋白質(zhì)是一類大分子,承擔(dān)細(xì)胞的多種功能,其三維結(jié)構(gòu)并非單一結(jié)構(gòu),很多蛋白質(zhì)“身段柔軟”,“隨遇而安”。

預(yù)測(cè)T1008蛋白質(zhì)結(jié)構(gòu)的動(dòng)畫截圖。圖片:DeepMind

此外,蛋白質(zhì)之間在細(xì)胞內(nèi)形成復(fù)雜的網(wǎng)絡(luò),也和外界保持著密切的溝通,而這些都是通過蛋白質(zhì)的修飾和相互作用實(shí)現(xiàn)的,那么這些對(duì)蛋白質(zhì)動(dòng)態(tài)三維結(jié)構(gòu)預(yù)測(cè)的挑戰(zhàn)就更大。

Deepmind在其博客中坦言,其預(yù)測(cè)的結(jié)果并非都是完美的,還有諸多問題待解。如多種蛋白質(zhì)如何形成復(fù)合物,蛋白質(zhì)與DNA、RNA和其他小分子的相互作用,以及如何確定所有氨基酸殘基和側(cè)鏈的精確位置。

在接受《經(jīng)濟(jì)學(xué)人》采訪時(shí),約翰·姜普博士說,目前的AlphaFold版本還有更大的發(fā)展空間,該軟件的準(zhǔn)確性還有待進(jìn)一步提升。

楊建益對(duì)全現(xiàn)在說,這個(gè)工作只是技術(shù)上的進(jìn)步,而非理論上的突破。不過使結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確率達(dá)到如此高的程度,確實(shí)是很大的進(jìn)步,雖然不能說完全替代實(shí)驗(yàn),但可以大大加速結(jié)構(gòu)解析過程,可喜可賀。

原標(biāo)題:《“生化版”阿爾法狗來了,生命密碼的馬奇諾防線崩了》

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司