幾乎每一個生命基本生化過程都與蛋白質息息相關。通過它們構造并保持每個細胞和組織的外觀結構;構建那些維持生命化學反應的催化酶;成為分子的加工廠、轉換器和驅動機;擔當信號器并接收蜂窩信號等等。
由氨基酸和蛋白質組成的長鏈,將它們自己折疊成精準3D結構,可以管理分子間活動的復雜問題。因為,蛋白質外形決定了它的功能和疾病中產生的功能紊亂,并影響蛋白質在分子生物學的中心地位,特別是用于治療科學和治病保健等藥物的發展。
近些年,蛋白質通過自身的氨基酸序列可以實現被預測,在計算方法上有了巨大進步。如果都能使用這些計算方法,那生物醫學研究都可以被轉換成計算公式。然而,現在一些應用則受到了蛋白質規模和范圍的局限而無法決策。
近期,來自哈佛醫學院的科學家應用了深度學習的方法,基于氨基酸序列來有效預測蛋白質的3D結構。17年4月,在Cell Systems上的一篇文章中,系統生物學家Mohammed AIQuraishi闡述了一種可以用來預測蛋白質結構的新計算方法,不但達到現在計算方法準確性,而且速度可以提高到一百萬倍以上。
“蛋白質折疊在近半個世紀里,一直以來都是困擾生物化學家們最重要的難題,但是這種方法給解決這類難題提供了一個新方向。” 哈佛醫學院Blavatnik學院系統生物學的教導主任AIQuraishi如是說。
“我們現在對探索蛋白質折疊有了全新遠景,同時我覺得我們正在一步步深入本質。”
理論的提出
雖然理論的探索非常成功,但使用物理工具識別蛋白質結構的過程卻是昂貴和費時的。因此,絕大多數蛋白質結構,以及致病突變對這些結構的影響在很大程度上仍是未知的。
如果能設計出計算蛋白質折疊的算法,是極有潛力大幅度降低塑造結構的成本和時間。但是這個問題一直困擾著我們長達四十年之久。
可視化模擬AlQuraishi的蛋白質折疊深度學習方法。該模型通過反復預測結構(彩色)并將其預測與地面真實結構(灰色)進行比較來訓練。這是重復成千上萬的已知蛋白質,隨著模型的學習和提高其準確性的每一次迭代。
蛋白質從二十多種的氨基酸中構建起來,這就像把字母從字母表中挑出來,連詞逐句構建文章。
然而,與那些字母不同的是,氨基酸是存在于3D空間中的實物。
通常,蛋白質的各個部分在物理上很接近,但在序列上卻有很大的距離,因為它的氨基酸鏈形成了環狀、片狀和螺旋形。“這個問題讓人矚目在于可以簡單表述:抓取一個序列并研究出它的形狀,”AIQuraishi如是說,“蛋白質一開始是一個非結構化的字符串,它必須呈現出三維的形狀,而一個字符串可以折疊成的形狀集是巨大的。許多蛋白質由數千個氨基酸組成,其復雜性很快超過了人類直覺甚至是最強大的計算機的能力。”
難以解決的問題
為了解決這一難題,科學家們利用氨基酸之間相互作用的事實,根據物理定律,尋找積極有利的狀態,簡直就是杯水車薪。
在超級計算機上計算蛋白質結構是目前最先進的算法,在Rosetta@Home和Folding@Home這樣的項目中,這些超級計算機或眾包計算能力可以模擬氨基酸通過強力相互作用的復雜物理過程。
為了減少大量的計算需求,這些項目依賴于將新的序列映射到預先定義的模板上,并通過之前的實驗確定的蛋白質結構。
很多研究學者對谷歌的AlphaFold一類項目很感興趣,他們是利用人工智能技術來預測蛋白質的結構。為此,這些方法分析了大量的基因組數據,其中包含蛋白質序列的藍圖。他們尋找許多可能共同進化的物種之間的序列,利用這些序列作為接近身體的指標來指導結構裝配。
然而,這些人工智能方法并不僅僅基于蛋白質的氨基酸序列來預測結構。因此,它們在確定沒有先驗知識的蛋白質結構、進化獨特的蛋白質或人類設計的新蛋白質方面的能力有限。
進一步試驗
為了開發一種新的方法,AlQuraishi應用了所謂的端到端可微深度學習。這一人工智能分支極大地降低了解決圖像和語音識別等問題所需的計算能力和時間,并應用在Siri和谷歌翻譯等程序上。
從本質上講,可微學習涉及到一個單一的、龐大的數學函數(高中微積分方程的更復雜版本),它被安排為一個神經網絡,網絡的每個組成部分向前和向后提供信息。在難以想象的復雜情況下,這個方程依舊可以自我調節,以便準確地“了解”蛋白質序列在數學上是如何與其結構相關聯的。
AlQuraishi開發了一個深度學習模型,稱為循環幾何網絡,主要研究蛋白質折疊的關鍵特征。但在做出新的預測之前,它必須使用之前確定的序列和結構進行訓練。
上圖展示的是循環幾何網絡模型是如何計算氨基酸肽鍵的夾角和這些肽鍵的旋轉角度,去形成一個蛋白質的幾何結構。
對于每一種氨基酸,該模型都能預測出將氨基酸與其相鄰氨基酸連接起來的化學鍵的最可能角度。它還預測了這些鍵的旋轉角度,從而影響到蛋白質的任何局部區域與整個結構的幾何關系。
這將不斷重復進行,每一個計算都是由其他氨基酸的相對位置決定的。一旦整個結構完成,該模型通過將其與蛋白質的“地面實況”結構進行比較,來檢驗其預測的準確性。整個過程對數千種已知的蛋白質重復進行,每一次重復都會使模型學習的準確性得到提高。
初步成果
當模型被訓練好時,AlQuraishi測試了它的預測能力。他將其性能與近年來“蛋白質結構預測關鍵評估”的其他方法進行了比較。蛋白質結構預測關鍵評估是一項年度實驗,測試計算方法利用已確定但未公開發布的蛋白質結構進行預測的能力。
他發現,在預測沒有預先存在模板的蛋白質結構方面,新模型優于所有其他方法,包括使用共同進化數據的方法。當預先存在的模板可用來進行預測時,它的性能也比所有方法都好,只有最好的方法除外。
AlQuraishi指出,盡管準確性上的提高相對較小,但在這些測試的最頂端很難實現任何改進。因為這種方法代表了一種全新的蛋白質折疊方法,無論物理上還是計算上都是現有方法的補充, 來確定比以前更廣泛的結構。
值得注意的是,新模型的預測速度比現有的計算方法快6到7個數量級。訓練這個模型可能需要幾個月的時間,但一旦訓練,它可以在幾毫秒內做出預測,而使用其他方法需要幾小時到幾天的時間。這種顯著的改進部分是由于它所基于的單一數學函數,只需要幾千行計算機代碼就可以運行,而不是數百萬行。
AlQuraishi說,這個模型的預測速度之快使得以前速度慢或難以實現的新應用成為可能,比如預測蛋白質在與其他分子相互作用時如何改變形狀。
“深度學習方法,不僅僅是我的方法,其預測能力和受歡迎程度將繼續增長,因為它們代表了一種最小的、簡單的范例,能夠比當前復雜的模型更容易地集成新思想,”他補充說。
AlQuraishi說,這個新模型還不能立即用于藥物發現或設計,因為目前它的精確度大約在6埃左右,離解決蛋白質的完整原子結構所需的1埃到2埃還有一段距離。
但他說,有很多機會可以優化這種方法,包括進一步整合化學和物理的規則。AlQuraishi說: 準確、有效地預測蛋白質折疊一直是這個領域的圣杯,我期待這種方法,連同所有其他已經開發出來的杰出方法,在不久的將來能夠做到這一點。
“AIQuraishi的工作給人的印象極深,尤其是敢于單槍匹馬與Google這類公司,在最火的計算機領域之一同臺競爭,并深入到具有良好研究系統的哈佛醫學院和波士頓生物醫藥社區。”作為哈佛醫學院Blavatnit系的Otto Krayer教授,兼系統病理實驗室主任的彼得佐格爾如是說。
為了讓大家更好的體驗并參與到算法研發中,AIQuraishi已經將全部軟件和結果在GitHub軟件分享平臺上發布。
-
轉換器
+關注
關注
27文章
9007瀏覽量
151288 -
人工智能
+關注
關注
1805文章
48913瀏覽量
248038 -
深度學習
+關注
關注
73文章
5557瀏覽量
122662
原文標題:折疊革命,深度學習通過氨基酸序列預測蛋白質結構
文章出處:【微信號:BigDataDigest,微信公眾號:大數據文摘】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
太赫茲細胞能量儀主控芯片方案單片機開發控制板布局規劃
天馬供折疊屏!傳音TECNO三折概念機PHANTOM ULTIMATE 2亮相MWC
IBM Spectrum LSF在生命科學和生物制藥領域的應用
華為依托昇騰AI打造蛋白結構預測工具
Evo 2 AI模型可通過NVIDIA BioNeMo平臺使用
遠景達邊緣計算盒子有哪些應用

“天鶩科技”完成超億元A輪融資
AI for Science:人工智能驅動科學創新》第4章-AI與生命科學讀后感
AI實火!諾貝爾又把化學獎頒給AI大模型
差示掃描量熱儀測試蛋白質的應用案例

創客中國AIGC專題賽冠軍天鶩科技:AI蛋白質設計引領者

評論