幾乎每一個生命基本生化過程都與蛋白質(zhì)息息相關(guān)。通過它們構(gòu)造并保持每個細胞和組織的外觀結(jié)構(gòu);構(gòu)建那些維持生命化學(xué)反應(yīng)的催化酶;成為分子的加工廠、轉(zhuǎn)換器和驅(qū)動機;擔(dān)當(dāng)信號器并接收蜂窩信號等等。
由氨基酸和蛋白質(zhì)組成的長鏈,將它們自己折疊成精準(zhǔn)3D結(jié)構(gòu),可以管理分子間活動的復(fù)雜問題。因為,蛋白質(zhì)外形決定了它的功能和疾病中產(chǎn)生的功能紊亂,并影響蛋白質(zhì)在分子生物學(xué)的中心地位,特別是用于治療科學(xué)和治病保健等藥物的發(fā)展。
近些年,蛋白質(zhì)通過自身的氨基酸序列可以實現(xiàn)被預(yù)測,在計算方法上有了巨大進步。如果都能使用這些計算方法,那生物醫(yī)學(xué)研究都可以被轉(zhuǎn)換成計算公式。然而,現(xiàn)在一些應(yīng)用則受到了蛋白質(zhì)規(guī)模和范圍的局限而無法決策。
近期,來自哈佛醫(yī)學(xué)院的科學(xué)家應(yīng)用了深度學(xué)習(xí)的方法,基于氨基酸序列來有效預(yù)測蛋白質(zhì)的3D結(jié)構(gòu)。17年4月,在Cell Systems上的一篇文章中,系統(tǒng)生物學(xué)家Mohammed AIQuraishi闡述了一種可以用來預(yù)測蛋白質(zhì)結(jié)構(gòu)的新計算方法,不但達到現(xiàn)在計算方法準(zhǔn)確性,而且速度可以提高到一百萬倍以上。
“蛋白質(zhì)折疊在近半個世紀(jì)里,一直以來都是困擾生物化學(xué)家們最重要的難題,但是這種方法給解決這類難題提供了一個新方向。” 哈佛醫(yī)學(xué)院Blavatnik學(xué)院系統(tǒng)生物學(xué)的教導(dǎo)主任AIQuraishi如是說。
“我們現(xiàn)在對探索蛋白質(zhì)折疊有了全新遠景,同時我覺得我們正在一步步深入本質(zhì)。”
理論的提出
雖然理論的探索非常成功,但使用物理工具識別蛋白質(zhì)結(jié)構(gòu)的過程卻是昂貴和費時的。因此,絕大多數(shù)蛋白質(zhì)結(jié)構(gòu),以及致病突變對這些結(jié)構(gòu)的影響在很大程度上仍是未知的。
如果能設(shè)計出計算蛋白質(zhì)折疊的算法,是極有潛力大幅度降低塑造結(jié)構(gòu)的成本和時間。但是這個問題一直困擾著我們長達四十年之久。
可視化模擬AlQuraishi的蛋白質(zhì)折疊深度學(xué)習(xí)方法。該模型通過反復(fù)預(yù)測結(jié)構(gòu)(彩色)并將其預(yù)測與地面真實結(jié)構(gòu)(灰色)進行比較來訓(xùn)練。這是重復(fù)成千上萬的已知蛋白質(zhì),隨著模型的學(xué)習(xí)和提高其準(zhǔn)確性的每一次迭代。
蛋白質(zhì)從二十多種的氨基酸中構(gòu)建起來,這就像把字母從字母表中挑出來,連詞逐句構(gòu)建文章。
然而,與那些字母不同的是,氨基酸是存在于3D空間中的實物。
通常,蛋白質(zhì)的各個部分在物理上很接近,但在序列上卻有很大的距離,因為它的氨基酸鏈形成了環(huán)狀、片狀和螺旋形。“這個問題讓人矚目在于可以簡單表述:抓取一個序列并研究出它的形狀,”AIQuraishi如是說,“蛋白質(zhì)一開始是一個非結(jié)構(gòu)化的字符串,它必須呈現(xiàn)出三維的形狀,而一個字符串可以折疊成的形狀集是巨大的。許多蛋白質(zhì)由數(shù)千個氨基酸組成,其復(fù)雜性很快超過了人類直覺甚至是最強大的計算機的能力。”
難以解決的問題
為了解決這一難題,科學(xué)家們利用氨基酸之間相互作用的事實,根據(jù)物理定律,尋找積極有利的狀態(tài),簡直就是杯水車薪。
在超級計算機上計算蛋白質(zhì)結(jié)構(gòu)是目前最先進的算法,在Rosetta@Home和Folding@Home這樣的項目中,這些超級計算機或眾包計算能力可以模擬氨基酸通過強力相互作用的復(fù)雜物理過程。
為了減少大量的計算需求,這些項目依賴于將新的序列映射到預(yù)先定義的模板上,并通過之前的實驗確定的蛋白質(zhì)結(jié)構(gòu)。
很多研究學(xué)者對谷歌的AlphaFold一類項目很感興趣,他們是利用人工智能技術(shù)來預(yù)測蛋白質(zhì)的結(jié)構(gòu)。為此,這些方法分析了大量的基因組數(shù)據(jù),其中包含蛋白質(zhì)序列的藍圖。他們尋找許多可能共同進化的物種之間的序列,利用這些序列作為接近身體的指標(biāo)來指導(dǎo)結(jié)構(gòu)裝配。
然而,這些人工智能方法并不僅僅基于蛋白質(zhì)的氨基酸序列來預(yù)測結(jié)構(gòu)。因此,它們在確定沒有先驗知識的蛋白質(zhì)結(jié)構(gòu)、進化獨特的蛋白質(zhì)或人類設(shè)計的新蛋白質(zhì)方面的能力有限。
進一步試驗
為了開發(fā)一種新的方法,AlQuraishi應(yīng)用了所謂的端到端可微深度學(xué)習(xí)。這一人工智能分支極大地降低了解決圖像和語音識別等問題所需的計算能力和時間,并應(yīng)用在Siri和谷歌翻譯等程序上。
從本質(zhì)上講,可微學(xué)習(xí)涉及到一個單一的、龐大的數(shù)學(xué)函數(shù)(高中微積分方程的更復(fù)雜版本),它被安排為一個神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)的每個組成部分向前和向后提供信息。在難以想象的復(fù)雜情況下,這個方程依舊可以自我調(diào)節(jié),以便準(zhǔn)確地“了解”蛋白質(zhì)序列在數(shù)學(xué)上是如何與其結(jié)構(gòu)相關(guān)聯(lián)的。
AlQuraishi開發(fā)了一個深度學(xué)習(xí)模型,稱為循環(huán)幾何網(wǎng)絡(luò),主要研究蛋白質(zhì)折疊的關(guān)鍵特征。但在做出新的預(yù)測之前,它必須使用之前確定的序列和結(jié)構(gòu)進行訓(xùn)練。
上圖展示的是循環(huán)幾何網(wǎng)絡(luò)模型是如何計算氨基酸肽鍵的夾角和這些肽鍵的旋轉(zhuǎn)角度,去形成一個蛋白質(zhì)的幾何結(jié)構(gòu)。
對于每一種氨基酸,該模型都能預(yù)測出將氨基酸與其相鄰氨基酸連接起來的化學(xué)鍵的最可能角度。它還預(yù)測了這些鍵的旋轉(zhuǎn)角度,從而影響到蛋白質(zhì)的任何局部區(qū)域與整個結(jié)構(gòu)的幾何關(guān)系。
這將不斷重復(fù)進行,每一個計算都是由其他氨基酸的相對位置決定的。一旦整個結(jié)構(gòu)完成,該模型通過將其與蛋白質(zhì)的“地面實況”結(jié)構(gòu)進行比較,來檢驗其預(yù)測的準(zhǔn)確性。整個過程對數(shù)千種已知的蛋白質(zhì)重復(fù)進行,每一次重復(fù)都會使模型學(xué)習(xí)的準(zhǔn)確性得到提高。
初步成果
當(dāng)模型被訓(xùn)練好時,AlQuraishi測試了它的預(yù)測能力。他將其性能與近年來“蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估”的其他方法進行了比較。蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估是一項年度實驗,測試計算方法利用已確定但未公開發(fā)布的蛋白質(zhì)結(jié)構(gòu)進行預(yù)測的能力。
他發(fā)現(xiàn),在預(yù)測沒有預(yù)先存在模板的蛋白質(zhì)結(jié)構(gòu)方面,新模型優(yōu)于所有其他方法,包括使用共同進化數(shù)據(jù)的方法。當(dāng)預(yù)先存在的模板可用來進行預(yù)測時,它的性能也比所有方法都好,只有最好的方法除外。
AlQuraishi指出,盡管準(zhǔn)確性上的提高相對較小,但在這些測試的最頂端很難實現(xiàn)任何改進。因為這種方法代表了一種全新的蛋白質(zhì)折疊方法,無論物理上還是計算上都是現(xiàn)有方法的補充, 來確定比以前更廣泛的結(jié)構(gòu)。
值得注意的是,新模型的預(yù)測速度比現(xiàn)有的計算方法快6到7個數(shù)量級。訓(xùn)練這個模型可能需要幾個月的時間,但一旦訓(xùn)練,它可以在幾毫秒內(nèi)做出預(yù)測,而使用其他方法需要幾小時到幾天的時間。這種顯著的改進部分是由于它所基于的單一數(shù)學(xué)函數(shù),只需要幾千行計算機代碼就可以運行,而不是數(shù)百萬行。
AlQuraishi說,這個模型的預(yù)測速度之快使得以前速度慢或難以實現(xiàn)的新應(yīng)用成為可能,比如預(yù)測蛋白質(zhì)在與其他分子相互作用時如何改變形狀。
“深度學(xué)習(xí)方法,不僅僅是我的方法,其預(yù)測能力和受歡迎程度將繼續(xù)增長,因為它們代表了一種最小的、簡單的范例,能夠比當(dāng)前復(fù)雜的模型更容易地集成新思想,”他補充說。
AlQuraishi說,這個新模型還不能立即用于藥物發(fā)現(xiàn)或設(shè)計,因為目前它的精確度大約在6埃左右,離解決蛋白質(zhì)的完整原子結(jié)構(gòu)所需的1埃到2埃還有一段距離。
但他說,有很多機會可以優(yōu)化這種方法,包括進一步整合化學(xué)和物理的規(guī)則。AlQuraishi說: 準(zhǔn)確、有效地預(yù)測蛋白質(zhì)折疊一直是這個領(lǐng)域的圣杯,我期待這種方法,連同所有其他已經(jīng)開發(fā)出來的杰出方法,在不久的將來能夠做到這一點。
“AIQuraishi的工作給人的印象極深,尤其是敢于單槍匹馬與Google這類公司,在最火的計算機領(lǐng)域之一同臺競爭,并深入到具有良好研究系統(tǒng)的哈佛醫(yī)學(xué)院和波士頓生物醫(yī)藥社區(qū)。”作為哈佛醫(yī)學(xué)院Blavatnit系的Otto Krayer教授,兼系統(tǒng)病理實驗室主任的彼得佐格爾如是說。
為了讓大家更好的體驗并參與到算法研發(fā)中,AIQuraishi已經(jīng)將全部軟件和結(jié)果在GitHub軟件分享平臺上發(fā)布。
-
轉(zhuǎn)換器
+關(guān)注
關(guān)注
27文章
8765瀏覽量
148455 -
人工智能
+關(guān)注
關(guān)注
1799文章
47965瀏覽量
241277 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5523瀏覽量
121719
原文標(biāo)題:折疊革命,深度學(xué)習(xí)通過氨基酸序列預(yù)測蛋白質(zhì)結(jié)構(gòu)
文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
差示掃描量熱儀在食品行業(yè)的應(yīng)用

AI先驅(qū)榮獲諾貝爾物理學(xué)獎和化學(xué)獎
“天鶩科技”完成超億元A輪融資
AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感
AI實火!諾貝爾又把化學(xué)獎頒給AI大模型
差示掃描量熱儀測試蛋白質(zhì)的應(yīng)用案例

創(chuàng)客中國AIGC專題賽冠軍天鶩科技:AI蛋白質(zhì)設(shè)計引領(lǐng)者

EvolutionaryScale推出基于NVIDIA GPU模型的新型蛋白質(zhì)研究方案
利用微流控探針誘導(dǎo)的化學(xué)質(zhì)膜穿孔,實現(xiàn)單細胞胞內(nèi)蛋白質(zhì)遞送

一種基于可拉伸光子晶體的熒光傳感陣列,用于卵巢癌早期診斷

基于熵驅(qū)動鏈置換策略的高靈敏mRNA檢測與細胞內(nèi)成像研究

洪亮團隊在生信期刊JCIM發(fā)布最新成果,蛋白質(zhì)工程邁入通用人工智能時代

天府錦城實驗室在生物傳感與蛋白質(zhì)測序領(lǐng)域取得重要進展

評論