今天,我們很高興與大家分享 DeepMind 在論證人工智能研究如何推動(dòng)并加速科學(xué)新發(fā)現(xiàn)方面的首個(gè)重要里程碑。由于我們的研究涉及大量學(xué)科領(lǐng)域,DeepMind 匯集了結(jié)構(gòu)生物學(xué)、物理學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域的多方專(zhuān)家,以應(yīng)用前沿技術(shù)單獨(dú)根據(jù)蛋白質(zhì)的基因序列預(yù)測(cè)其 3D 結(jié)構(gòu)。
在過(guò)去兩年中,我們一直在研究 AlphaFold 系統(tǒng),該系統(tǒng)基于之前使用海量基因組數(shù)據(jù)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的多年研究構(gòu)建。AlphaFold 生成的蛋白質(zhì) 3D 模型遠(yuǎn)比過(guò)去的任何模型都要精確,也因此在某個(gè)生物學(xué)核心挑戰(zhàn)方面取得了重大進(jìn)展。
什么是蛋白質(zhì)折疊問(wèn)題?
蛋白質(zhì)是維持生命所必需的復(fù)雜大分子。人體的每項(xiàng)功能幾乎都可以追溯至一種或多種蛋白質(zhì),以及這些蛋白質(zhì)的移動(dòng)和變化過(guò)程,例如收縮肌肉、感知光線(xiàn)或?qū)⑹澄镛D(zhuǎn)化為能量。這些蛋白質(zhì)的配方(即基因)則以編碼形式留在我們的 DNA 中。
任何一種蛋白質(zhì)的功能,都取決于其獨(dú)一無(wú)二的 3D 結(jié)構(gòu)。例如,構(gòu)成人體免疫系統(tǒng)的抗體蛋白呈 “Y 字形”,類(lèi)似于形狀獨(dú)特的鉤子。通過(guò)黏附在病毒和細(xì)菌上,抗體蛋白能夠檢測(cè)并標(biāo)記致病微生物,從而將其消滅。與之類(lèi)似,膠原蛋白的形狀像繩子,可在軟骨、韌帶、骨骼和皮膚之間傳遞張力。Cas9 等其他類(lèi)型的蛋白質(zhì)以 CRISPR 序列為導(dǎo)向,像剪刀一樣剪切并粘貼 DNA 片段;抗凍蛋白的 3D 結(jié)構(gòu)使其能夠與冰晶結(jié)合,并防止有機(jī)體凍結(jié);核糖體的行動(dòng)如同程序化的裝配線(xiàn)一般,幫助蛋白質(zhì)實(shí)現(xiàn)自身構(gòu)建。
然而,僅依靠蛋白質(zhì)的基因序列來(lái)找出其 3D 形狀是一項(xiàng)非常復(fù)雜的任務(wù)。幾十年來(lái),這項(xiàng)難題一直困擾著科學(xué)家。這項(xiàng)任務(wù)的難點(diǎn)在于,DNA 僅包含關(guān)于氨基酸殘基(可形成長(zhǎng)鏈)這一蛋白質(zhì)組成塊的信息。所謂的 “蛋白質(zhì)折疊問(wèn)題” 便是預(yù)測(cè)這些鏈如何折疊成錯(cuò)綜復(fù)雜的 3D 蛋白質(zhì)結(jié)構(gòu)。
蛋白質(zhì)越大,需要考慮的氨基酸相互作用就越多,進(jìn)行建模的復(fù)雜性和難度也就越高。正如利文索爾佯謬中所述,在我們獲得正確的 3D 結(jié)構(gòu)之前,我們枚舉所有可能的典型蛋白質(zhì)構(gòu)型所需的時(shí)間可能比宇宙的年齡還要久遠(yuǎn)。
為什么蛋白質(zhì)折疊很重要?
預(yù)測(cè)蛋白質(zhì)形狀的能力對(duì)科學(xué)家而言非常實(shí)用,因?yàn)檫@種能力對(duì)理解蛋白質(zhì)在人體內(nèi)的作用,以及診斷和治療業(yè)界認(rèn)為是由錯(cuò)誤折疊的蛋白質(zhì)所引起的疾病(例如阿爾茨海默癥、帕金森癥、亨廷頓舞蹈癥和囊腫性纖維化)至關(guān)重要。
尤其令我們興奮的是了解到蛋白質(zhì)折疊可能會(huì)如何增強(qiáng)我們對(duì)人體及其工作原理的理解,進(jìn)而幫助科學(xué)家更高效地設(shè)計(jì)出能夠有效治愈疾病的新療法。隨著我們通過(guò)模擬和模型深入了解蛋白質(zhì)形狀及其工作原理,它不僅在藥物發(fā)現(xiàn)領(lǐng)域展現(xiàn)出新潛力,同時(shí)還降低了實(shí)驗(yàn)的相關(guān)成本。最終,這會(huì)改善全世界數(shù)百萬(wàn)患者的生活質(zhì)量。
此外,對(duì)蛋白質(zhì)折疊的理解還將助力蛋白質(zhì)設(shè)計(jì),這將為我們不可勝數(shù)的益處。例如,生物可降解酶(可通過(guò)蛋白質(zhì)設(shè)計(jì)實(shí)現(xiàn))領(lǐng)域的進(jìn)展有助于管理塑料和石油等污染物,進(jìn)而幫助我們以更環(huán)保的方式分解廢物。事實(shí)上,研究人員已經(jīng)開(kāi)始對(duì)細(xì)菌進(jìn)行工程改造,令其分泌出使廢物可經(jīng)過(guò)生物降解并更易處理的蛋白質(zhì)。
為了促進(jìn)研究和衡量用于提高預(yù)測(cè)準(zhǔn)確度的最新方法取得的進(jìn)步,業(yè)界于 1994 年成立了名為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)技術(shù)關(guān)鍵評(píng)估 (CASP) 的社區(qū)范圍實(shí)驗(yàn),該全球競(jìng)賽每?jī)赡昱e行一次,現(xiàn)已成為評(píng)估此類(lèi)技術(shù)的黃金標(biāo)準(zhǔn)。
AI 如何大顯身手?
在過(guò)去 50 年間,科學(xué)家已經(jīng)能夠在實(shí)驗(yàn)室中使用低溫電子顯微技術(shù)、核磁共振或 X 射線(xiàn)晶體學(xué)等實(shí)驗(yàn)性技術(shù)確定蛋白質(zhì)的形狀。但每種方法都要經(jīng)過(guò)大量嘗試與失敗,每個(gè)結(jié)構(gòu)都需耗時(shí)數(shù)年,且成本高達(dá)數(shù)萬(wàn)美元。這正是為什么生物學(xué)家將目光轉(zhuǎn)向 AI 方法,希望用其取代這種漫長(zhǎng)而艱苦的復(fù)雜蛋白質(zhì)處理過(guò)程。
幸運(yùn)的是,得益于基因測(cè)序成本的迅速降低,基因組學(xué)領(lǐng)域的數(shù)據(jù)相當(dāng)豐富。因此在過(guò)去幾年里,越來(lái)越多的研究人員利用深度學(xué)習(xí)方法來(lái)處理依賴(lài)于基因組數(shù)據(jù)的預(yù)測(cè)問(wèn)題。在 DeepMind 對(duì)此類(lèi)問(wèn)題的研究中,AlphaFold 應(yīng)運(yùn)而生。今年,我們已向 CASP 提交了該作品。令我們引以為傲的是,CASP 的組織方評(píng)價(jià) AlphaFold 是 “在預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的計(jì)算方法能力方面取得的空前進(jìn)展”,并在入圍的眾多參賽團(tuán)隊(duì)中,將第一名的桂冠頒發(fā)給我們(我們的參賽名稱(chēng)是 A7D)。
我們的團(tuán)隊(duì)特別關(guān)注從零開(kāi)始對(duì)目標(biāo)形狀進(jìn)行建模這一難題,而且并未使用此前已經(jīng)解決的蛋白質(zhì)結(jié)構(gòu)作為模板。我們?cè)陬A(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的物理屬性時(shí)實(shí)現(xiàn)了高準(zhǔn)確度,然后使用兩種截然不同的方法來(lái)構(gòu)建對(duì)蛋白質(zhì)完整結(jié)構(gòu)的預(yù)測(cè)。
利用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)物理屬性
上述兩種方法均依賴(lài)深度神經(jīng)網(wǎng)絡(luò),這些經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)可以從其基因序列中預(yù)測(cè)蛋白質(zhì)屬性。該網(wǎng)絡(luò)預(yù)測(cè)的屬性包括:(a) 氨基酸對(duì)的間距和 (b) 連接這些氨基酸的化學(xué)鍵之間的角度。此方法的首要進(jìn)步是改進(jìn)了常用技術(shù),這些技術(shù)可以估算氨基酸對(duì)是否彼此接近。
我們訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò),以預(yù)測(cè)蛋白質(zhì)中每個(gè)殘基對(duì)之間的單獨(dú)距離分布。然后,我們將這些概率合并為分?jǐn)?shù),以估計(jì)所提出的蛋白質(zhì)結(jié)構(gòu)的精確程度。我們還訓(xùn)練了一個(gè)單獨(dú)的神經(jīng)網(wǎng)絡(luò),其綜合使用所有距離來(lái)估算所提出的結(jié)構(gòu)與正確答案的接近程度。
構(gòu)建蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的新方法
使用這些評(píng)分功能,我們能夠搜索蛋白質(zhì)結(jié)構(gòu),以找到符合預(yù)測(cè)的結(jié)構(gòu)。第一種方法基于結(jié)構(gòu)生物學(xué)的常用技術(shù)構(gòu)建,并使用新的蛋白質(zhì)片段反復(fù)替換蛋白質(zhì)片段。我們訓(xùn)練了一個(gè)生成式神經(jīng)網(wǎng)絡(luò)來(lái)創(chuàng)建新片段,并針對(duì)所提出的蛋白質(zhì)結(jié)構(gòu),利用這些片段不斷提高其分?jǐn)?shù)。
第二種方法通過(guò)梯度下降(機(jī)器學(xué)習(xí)領(lǐng)域常用的一種數(shù)學(xué)技術(shù),能夠不斷產(chǎn)生微小的改進(jìn))來(lái)優(yōu)化分?jǐn)?shù),進(jìn)而生成高度精確的結(jié)構(gòu)。此技術(shù)應(yīng)用于整條蛋白質(zhì)鏈,而非在組裝前須分開(kāi)折疊的片段,因而可簡(jiǎn)化預(yù)測(cè)過(guò)程。
未來(lái)如何發(fā)展?
我們首次涉足蛋白質(zhì)折疊領(lǐng)域便取得成功,展示了機(jī)器學(xué)習(xí)系統(tǒng)如何整合各類(lèi)信息來(lái)源,幫助科學(xué)家快速提出解決復(fù)雜問(wèn)題的創(chuàng)造性解決方案。正如我們所見(jiàn),AI 可通過(guò) AlphaGo 和 AlphaZero 等系統(tǒng)幫助人們掌握復(fù)雜的游戲。同樣地,我們希望某一天 AI 技術(shù)的突破也能幫助我們處理基本的科學(xué)問(wèn)題。
我們很高興看到蛋白質(zhì)折疊領(lǐng)域的早期發(fā)展跡象,這證明了 AI 在科學(xué)發(fā)現(xiàn)中的作用。盡管該技術(shù)在對(duì)治療疾病、管理環(huán)境等方面產(chǎn)生可量化影響之前仍需深入研究,但我們明白,AI 的潛力不可限量。在擁有重點(diǎn)研究機(jī)器學(xué)習(xí)如何推動(dòng)科學(xué)世界進(jìn)步的專(zhuān)門(mén)團(tuán)隊(duì)后,我們期待自己的技術(shù)能夠在眾多領(lǐng)域大展身手。
在我們發(fā)表關(guān)于此項(xiàng)研究的論文之前,請(qǐng)將其引用為:《通過(guò)基于評(píng)分的深度學(xué)習(xí)進(jìn)行從頭結(jié)構(gòu)預(yù)測(cè)》(De novo structure prediction with deep-learning based scoring)R.Evans、J.Jumper、J.Kirkpatrick、L.Sifre、T.F.G.Green、C.Qin、A.Zidek、A.Nelson、A.Bridgland、H.Penedones、S.Petersen、K.Simonyan、S.Crossan、D.T.Jones、D.Silver、K.Kavukcuoglu、D.Hassabis、A.W.Senior發(fā)表于 2018 年 12 月 1 日至 4 日舉行的第 13 屆蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)技術(shù)關(guān)鍵評(píng)估(摘要)。如需查看摘要,請(qǐng)點(diǎn)擊 此處(https://deepmind.com/documents/262/A7D_AlphaFold.pdf)。
此項(xiàng)研究是與以下人員協(xié)作完成:Richard Evans、John Jumper、James Kirkpatrick、Laurent Sifre、Tim Green、Chongli Qin、Augustin Zidek、Sandy Nelson、Alex Bridgland、Hugo Penedones、Stig Petersen、Karen Simonyan、Steve Crossan、David Jones、David Silver、Koray Kavukcuoglu、Demis Hassabis 和 Andrew Senior
-
AI
+關(guān)注
關(guān)注
87文章
31711瀏覽量
270505 -
模型
+關(guān)注
關(guān)注
1文章
3342瀏覽量
49271 -
光線(xiàn)
+關(guān)注
關(guān)注
0文章
72瀏覽量
10588
原文標(biāo)題:AlphaFold:利用 AI 獲得科學(xué)發(fā)現(xiàn)
文章出處:【微信號(hào):tensorflowers,微信公眾號(hào):Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
NVIDIA RAPIDS cuDF如何賦能AI加速數(shù)據(jù)科學(xué)
NVIDIA 攜手行業(yè)領(lǐng)先機(jī)構(gòu)推動(dòng)基因組學(xué)、藥物發(fā)現(xiàn)及醫(yī)療健康行業(yè)發(fā)展
![NVIDIA 攜手行業(yè)領(lǐng)先機(jī)構(gòu)推動(dòng)基因組學(xué)、藥物<b class='flag-5'>發(fā)現(xiàn)</b>及醫(yī)療健康行業(yè)發(fā)展](https://file1.elecfans.com/web3/M00/05/EF/wKgZO2eF-LOAF2QmAAWYagCB324004.png)
西湖大學(xué):科學(xué)家+AI,科研新范式的樣本
![西湖大學(xué):<b class='flag-5'>科學(xué)</b>家+<b class='flag-5'>AI</b>,科研新范式的樣本](https://file1.elecfans.com//web3/M00/02/08/wKgZPGdal-GAJGtlAACRXobG1qA521.jpg)
《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感
AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感
《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得
《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得
名單公布!【書(shū)籍評(píng)測(cè)活動(dòng)NO.44】AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新
如何利用traceroute命令發(fā)現(xiàn)網(wǎng)絡(luò)中的負(fù)載均衡
![如何<b class='flag-5'>利用</b>traceroute命令<b class='flag-5'>發(fā)現(xiàn)</b>網(wǎng)絡(luò)中的負(fù)載均衡](https://file1.elecfans.com/web2/M00/01/08/wKgZomazHumAVVonAAAqjCv-RWI311.png)
中國(guó)科學(xué)家發(fā)現(xiàn)新型高溫超導(dǎo)體
如何利用AI進(jìn)行提升自我呢?
助力科學(xué)發(fā)展,NVIDIA AI加速HPC研究
![助力<b class='flag-5'>科學(xué)</b>發(fā)展,NVIDIA <b class='flag-5'>AI</b>加速HPC研究](https://file1.elecfans.com/web2/M00/E6/2B/wKgaomZCvAaAfknvAAAcvZ0bm24729.jpg)
![](https://file1.elecfans.com/web2/M00/CA/A1/wKgZomYfMjKAMjbGAAJOg0_enl0270.png)
評(píng)論