在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于深度學習下的QSAR如何助力醫藥研發?

GPU視覺識別 ? 來源:GPU視覺識別 ? 作者:GPU視覺識別 ? 2023-01-05 11:13 ? 次閱讀

數學模型 | 分子結構 | QSAR

機器學習 | CoMFA|Hansch

如今是算力、高性能為先的社會,隨著機器學習、深度學習的快速發展,用于生命科學醫藥研發的QSAR(定量結構-活性關系)也在快速發展。伴隨著數據分析、數據挖掘數目的不斷增大,傳統的風冷散熱方式已經不足以滿足散熱需要,這就需要新興的液冷散熱技術以此滿足節能減排、靜音高效的需求。

作為國內品牌服務器廠商,藍海大腦液冷GPU服務器擁有大規模并行處理能力和無與倫比的靈活性。它主要用于為計算密集型應用程序提供足夠的處理能力。GPU的優勢在于可以由CPU運行應用程序代碼,同時圖形處理單元(GPU)可以處理大規模并行架構的計算密集型任務。GPU服務器是醫療成像、醫藥研發、QSAR研究的理想選擇。

本文將為大家全面介紹QSAR(定量結構-活性關系)及其研究方法。

dG8nfxTD_YAYH.png?auth_key=1673193599-0-0-6357c3f6cc87a4dfb5d20310f2c8ea35

什么是QSAR?

定量結構-活性關系(Quantitative Structure-Activity Relationship,QSAR)是目前國內外一個活躍的研究領域。主要基于各種分子描述符和模型算法,建立化合物的結構與其理化性質、生物學活性、毒理學效應、環境行為和歸趨等的定性/定量關系。

隨著計算機技術迅猛發展,QSAR的學術研究已步入到一個新水平,涉及化學、藥物、環境和健康等諸多領域。同時,隨著監管機構對其認可度的提高,QASR在工業化學品、農藥、 消毒劑、化妝品、食品接觸材料和添加劑、醫藥等的研發、風險評估、注冊和管理方面發揮著越來越重要的作用。

但QSAR并不是一個只要輸入物質結構,甚至CAS號碼,就能輸出一份報告的簡單工具。事實上,QSAR 的應用需要大量的理論和實踐基礎。只有對模型算法選擇、化學信息學、實驗方法、毒性/生物活性的作用機制、 可靠性驗證、法規知識等具備相當深入的研究,才能準確地將之運用相關領域。因此QSAR模型的構建和使用對專業知識要求比較高,這對新接觸QSAR的人來說往往會存在一定難度。

FT6vHwGa_ZQSr.jpg?auth_key=1673193599-0-0-a9240b7ec32b2991e05ac2dbca3b1432

QSAR建模過程

QSAR建模過程一般包含數據收集、計算與篩選分子描述符、模型建立、驗證與評價四個步驟。

一、數據收集

廣義上,在藥物設計中,用以建模的化合物數據主要包括以下幾類:

1、針對靶標的活性,如酶活性的半數抑制濃度和細胞活性的半數抑制濃度等

2、生物毒性,如口服急性毒性LD50、最小作用劑量MED、突變性和致癌性等

3、理化性質,如溶解性和血腦穿透能力等

4、環境中轉化的表征參數,如水生毒性和降解速率等。數據的可靠性是模型有效的前提,只有通過可靠實驗數據建立的模型才具有實際應用價值。

二、計算與篩選分子描述符

在QSAR研究領域,人們可根據化合物結構推導出來某種與之對應的數值指標,這些指標就是化合物物理化學性質微觀上的描述,將此稱作其生物學性質上某一“指紋”的“微觀顯示”,即分子描述符。

三、模型建立

QSAR模型可分為線性與非線性兩類建模方法。其中線性模型中主要應用多元線性回歸(MLR)、主成分分析(PCA)和偏最小二乘法(PLS)等方法;遺傳算法(GA)、支持向量機(SVM)和人工神經網絡(ANN)則能較好地處理非線性關系。

1、遺傳算法

GA是根據大自然生物進化規律,模擬生物基因發生改變的現象。探索復雜模型的組合優化問題,通過選擇、交叉和變異等過程的模擬組合,得到備選的多組自變量與因變量,通過適應度是否達到閾值或最優個體適應度上升趨勢來判斷其優劣,直至滿足要求,得到最優QSAR模型。

2、主成分分析

在含有多變量的分析中,PCA常被作為簡化數據的方法。該方法可以通過正交變換,完成變量線性到非線性的轉化,從而簡化QSAR建模進程。Bernardo等,通過該方法構建QSAR模型,對多環芳烴致癌毒性的預測得到了較好結果。

3、偏最小二乘法

PLS可以看作是MLR和PCA兩種方法的結合,通過最小化誤差的平方和篩選最優數據,排除原有信息中線性重迭的分子描述符,并且適合樣本容量不足時構建QSAR模型。

4、人工神經網絡

ANN是對人腦處理數據時神經元的模擬,將大量節點之間構成聯系,建立模型,常用于構建非線性QSAR模型,但存在一定的不穩定性,需要提前篩選描述符才能構建有效模型。

5、支持向量機

SVM是一類監督學習方式,它建立在結構風險最小化原理基礎之上,通過尋找最優超平面進行非線性分類,從而將非線性特征問題的分析向線性分析轉變,被廣泛用于分類問題和回歸問題的解決中。

ndIwXcf7_PzgY.jpg?auth_key=1673193599-0-0-8b0e7af28ca1fa68e2f9989388654d7f

二維QSAR概念模式與研究方法

二維定量構效關系方法是將分子整體的結構性質作為參數,對分子生理活性進行回歸分析,建立化學結構與生理活性相關性模型的一種藥物設計方法,常見的二維定量構效關系方法有hansch方法、free-wilson方法、分子連接性方法等,最為著名和應用最廣泛的是hansch方法。

一、活性參數

活性參數是構成二維定量構效關系的要素之一,人們根據研究的體系選擇不同的活性參數,常見的活性參數有:半數有效量、半數有效濃度、半數抑菌濃度、半數致死量、最小抑菌濃度等,所有活性參數均必須采用物質的量作為計量單位,以便消除分子量的影響,從而真實地反映分子水平的生理活性。為了獲得較好的數學模型,活性參數在二維定量構效關系中一般取負對數后進行統計分析。

二、結構參數

結構參數是構成定量構效關系的另一大要素,常見的結構參數有:疏水參數、電性參數、立體參數、幾何參數、拓撲參數、理化性質參數以及純粹的結構參數等。

1、疏水參數

藥物在體內吸收和分布的過程與其疏水性密切相關,因而疏水性是影響藥物生理活性的一個重要性質,在二維定量構效關系中采用的疏水參數最常見的是脂水分配系數,其定義為分子在正辛醇與水中分配的比例,對于分子母環上的取代基,脂水分配系數的對數值具有加和性,可以通過簡單的代數計算獲得某一取代結構的疏水參數。

2、電性參數

二維定量構效關系中的電性參數直接繼承了哈密頓公式和塔夫托公式中的電性參數的定義,用以表征取代基團對分子整體電子分配的影響,其數值對于取代基也具有加和性。

3、立體參數

立體參數可以表征分子內部由于各個基團相互作用對藥效構象產生的影響以及對藥物和生物大分子結合模式產生的影響,常用的立體參數有塔夫托立體參數、摩爾折射率、范德華半徑等。

4、幾何參數

幾何參數是與分子構象相關的立體參數,因為這類參數常常在定量構效關系中占據一定地位,故而將其與立體參數分割考慮,常見的幾何參數有分子表面積、溶劑可及化表面積、分子體積、多維立體參數等。

5、拓撲參數

在分子連接性方法中使用的結構參數,拓撲參數根據分子的拓撲結構將各個原子編碼,用形成的代碼來表征分子結構。

6、理化性質參數

偶極矩、分子光譜數據、前線軌道能級、酸堿解離常數等理化性質參數有時也用做結構參數參予定量構效關系研究。

7、純粹的結構參數

在free-wilson方法中,使用純粹的結構參數,這種參數以某一特定結構的分子為參考標準,依照結構母環上功能基團的有無對分子結構進行編碼,進行回歸分析,為每一個功能基團計算出回歸系數,從而獲得定量構效關系模型。

三、數學模型

二維定量構效關系中最常見的數學模型是線性回歸分析,Hansch方程和Free-Wilson方法均采用回歸分析。

經典的Hansch方程形式為:

NSROYVNH_bDBO.png?auth_key=1673193599-0-0-0a098aac6eb9246f7fa15ba5e081c8f5

其中π為分子的疏水參數,其與分子脂水分配系數Px的關系為:

Vzn4Uhvg_6zMa.png?auth_key=1673193599-0-0-f2954d97e5436c1020a8fd6e72d574ab

,σ為哈密頓電性參數,Es為塔夫托立體參數,其中a,b,c,k均為回歸系數。

日本學者藤田稔夫對經典的Hansch方程作出一定改進,用拋物線模型描述疏水性與活性的關系:

cGr8cgTk_eODa.png?auth_key=1673193599-0-0-0d6a747ec7ae8284b89c323f301e84b4

這一模型擬合效果更好。Hansch方程進一步,以雙直線模型描述疏水性與活性的關系:

NbUW3SSt_WWST.png?auth_key=1673193599-0-0-fa8692344502355775bd55be0ebde6ad

其中的P為分子的脂水分配系數,a,b,β為回歸系數,D代表方程的其他部分。雙直線模型的預測能力比拋物線模型進一步加強。

Free-Wilson方法的方程形式為:

Z63akr6c_bJeS.png?auth_key=1673193599-0-0-96d356bfda157a6b2984cf0ba1677883

其中

4fHrP9Ew_tuI5.png?auth_key=1673193599-0-0-084d3339477e56982d47444955849ef5

為結構參數,若結構母環中第i個位置有第j類取代基則結構參數取值為1否則為0,μ為參照分子的活性參數,

vJVZUc92_h5tB.png?auth_key=1673193599-0-0-83248cf3caf1b11ca54fa60b23ac5e1c

為回歸系數。

除了回歸分析,遺傳算法、人工神經網絡、偏最小二乘分析、模式識別、單純形方法等統計分析方法也會應用于二維定量構效關系數學模型的建立。

四、發展

二維定量構效關系的研究集中在兩個方向:結構數據的改良和統計方法的優化。

傳統的二維定量構效關系使用的結構數據常僅能反應分子整體的性質,通過改良結構參數,使得二維結構參數能夠在一定程度上反應分子在三維空間內的伸展狀況,成為二維定量構效關系的一個發展方向。

引入新的統計方法,如遺傳算法、人工神經網絡、偏最小二乘回歸等,擴展二維定量構效關系能夠模擬的數據結構的范圍,提高QSAR模型的預測能力是2D-QSAR的主要發展方向。

3dCOxbaH_AmrR.png?auth_key=1673193599-0-0-dd3767fecfdb13949d62f947437b7678

三維QSAR概念模式與研究方法

由于二維定量構效關系不能精確描述分子三維結構與生理活性之間的關系,隨著構效關系理論和統計方法的進一步發展,引入了三維定量構效關系。這種方法間接地反映了藥物分子與大分子相互作用過程中的非鍵相互作用特征,相對于二維定量構效關系有更加明確的物理意義和更豐富的信息量,因此三維定量構效關系逐漸取代了二維定量構效關系的地位,成為基于機理的合理藥物設計的主要方法之一。

這是 3D-QSAR 的發展歷程,我們可以看出自從 80 年代提出以來,它的發展還是很快的,目前應用最廣泛的三維定量構效關系方法是比較分子場方法和比較分子相似性方法。

一、比較分子場分析方法

這種方法通過分析分子在三維空間內的疏水場,靜電場和立體場分布,以這些參數為變量對藥物活性做回歸分析。它的基本原理是:如果一組相似化合物以同樣的方式作用于同一一靶點,那么它們的生物活性就取決于每個化合物周圍分子場的差別,這種分子場可以反映藥物分子和靶點之間的非鍵相互作用特性。

優勢:通過比較同系列分子附近空間各點的疏水性、靜電勢等理化參數,將這些參數與小分子生理活性建立聯系,從而指導新化合物的設計

不足:分子的排列是該模型最關鍵、最困難的問題,也就是說化合物與受體作用位點結合的方向,任何小誤差出現在過程中都將導致計算結果的不精確。

二、比較分子相似因子分析法

與比較分子場分析方法最大的不同就是分子場的能量函數采用了與距離相關的高斯函數的形式,這種方法中共定義五種分子場的特征,包括立體場、靜電場、疏水場以及氫鍵給體場和氫鍵受體場。

這個方法是人們對比較分子場分析方法做了大量修正和改進得到的更具優勢的模型。

優勢:采用了與距離相關的高斯函數形式,可以有效地避免在傳統比較分子場分析方法中由靜電場和立體場的函數形式所引起的

不足:由于分子場能量在格點上的迅速衰退,不需要定義能量的截斷值

三、距離幾何法

這種方法假定配體分子的活性基團與受體分子間的結合位點之間是相互作用的,它將藥物分子劃分為若干功能區塊定義藥物分子活性位點,計算構象時各個活性位點之間的距離,形成距離矩陣;同時定義受體分子的結合位點,獲得結合位點的距離矩陣,通過活性位點和結合位點的匹配為每個分子生成結構參數,對生理活性數據進行統計分析。

四、分子形狀分析法

研究步驟一般可分為:

分析藥物分子的構象,得到分子構象庫

確定分子的活性構象

根據分子的活性構象選定參考構象

將其他分子構象與參考構象進行重疊

根據重疊構象確定公共重疊體積和其他的分子特征

最后根據重疊體積和分子特征,建立 QSAR 模型

uyumwurp_tELY.png?auth_key=1673193599-0-0-634b47349d53177bd60c8fffff34faeb

QSAR的應用

一、微觀方面的應用

1、藥物設計

近年來,分子生物學和計算機科學的迅速發展,使得計算機輔助藥物設計(CADD)在新藥物開發中起著非常重要的作用。按照是否已知受體的三維結構,可把這些方法分為兩大類,一類是直接藥物設計,用于受體靶點三維結構已知的情況下,研究藥物與受體的相互作用,根據受體受點的形狀和性質設計新的藥物,如:對 DHFR 抑制劑、人體免疫缺陷病毒(HIV-1)蛋白酶抑制劑、5-羥色胺(5-HT)受體拮抗劑等的研究;另一類是間接藥物設計,當受體的三維結構未知時,采用對一組具有類似活性的化合物建立定量結構-活性關系模型,根據 QSAR 計算結果的指導藥物化學家可以更有目的性地對生理活性物質進行結構改造。

CoMFA 和 CoMISA是應用最廣泛的合理藥物設計方法之一,這種方法認為,藥物分子與受體間的相互作用取決于化合物周圍分子場的差別,以定量化的分子場參數作為變量,對藥物活性進行回歸分析便可以反應藥物與生物大分子之間的相互作用模式進而有選擇地設計新藥。

2、模擬污染物對酶、生物作用的動力學過程

3D-QSAR 發展至今,已稱為計算機輔助農藥設計的基本手段與分析方法。同時,在生物化學、生物醫學和生物毒理學方面,3D-QSAR 可用于研究酶的活性、生物體抗病毒能力的強弱、化合物的致癌致畸性等。

具體來說,3D-QSAR 已用來研究多種酶(如水解酶、氧化還原酶、連接酶)的作用物和抑制劑,受體(如 5-HT受體、GHRH 受體等)和運輸載體。此外,3D-QSAR 在腫瘤學、抗菌劑、新陳代謝方面也有一些應用。

O7zvTE4A_HBZZ.png?auth_key=1673193599-0-0-4f93d6b20321b44e949aa289d28f0cdd

二、宏觀方面的應用

利用 3D-QSAR 解決環境化學問題才剛剛起步。目前,對于一些除草劑,如光系統Ⅱ(PSⅡ)抑制劑、氰基內稀酸酯類化學物、光合作用抑制劑嘧啶硫苯甲酸類化合物等,已研究了其三維定量構效關系。

如何將 3D-QSAR 研究深入,在環境化學中發揮更大作用,是迫切需要解決的問題。3D-QSAR與傳統 OSAR 相結合,研究污染物水解、光解、生物降解以及土壤吸附等環境行為,將有助于更加深入的yanjiu研究這些環境行為的作用機理。同時,對于廣泛使用污染嚴重的化合物(如除草劑、殺蟲劑、洗滌劑等),在已有的 2D-QSAR 研究基礎上,進行 3D-QSAR 分析,進而了解化合物產生毒性的部位和發揮用途的機制,挑選出高效低毒的化合物,可達到減少污染的目的。使用 3D-QSAR 的方法,還可以了解污染物在與蛋白質和核酸等生物大分子結合、作用(從而導致癌變等病理情況)的過程中其三維結構所扮演的角色,更加深入的研究污染物在生物體內的作用途徑,這對揭示人類的衰老、疾病機制,維護人類健康將發揮重要作用。

y5IVcCTj_QCuz.png?auth_key=1673193599-0-0-88ab118e1a6b4a5e9032ec9da95dddc2

QSAR模型內部與外部驗證方法綜述

最近幾十年,國內外大量文獻報道定量結構-活性/屬性相關(QSAR/OSPR)模型,王連生教授作為我國有機污染物定量構效關系研究領域的開創者,為我國的 QSAR 研究做出了突出的貢獻。

經濟合作與發展組織(OECD)提出 QSAR 模型需遵循5個法則:

1、確定的終點

2、明確的運算方法

3、定義應用范圍

4、適當驗證模型擬合優度、穩健性和預測能力

5、如果可能,進行機理解釋。建立QSAR 模型的目的通常是為了:

預測未測定或新化合物的生物活性

確定哪些分子結構屬性決定化合物的生物活性,例如,在藥物學研究中,通過 QSAR 研究可以修改藥物分子結構進而提高藥效或更進一步理解生物學機理

為此,下面將詳細綜述 QSAR 模型的內部驗證和外部驗證方法,為 QSAR 建模者提供指導與幫助。這些內部驗證和外部驗證可作為 QSAR 的驗證方法,以保證回歸模型的可靠性和有效性。

一、QSAR模型內部驗證方法

嚴格的 QSAR 模型驗證程序應包括內部驗證和外部驗證.內部驗證方法包括留一法(LOO)交叉驗證、留多法(leave-manv-out.LMO)或留N法(leave-N-out.LNO)交叉驗證、隨機化驗證和自舉法等。

1、LOO 交叉驗證

LOO 交叉驗證是模型內部驗證最簡單的方法之一。假設對于含n個樣本的數據集,LOO 交叉驗證步驟如下:

1)抽出第1個樣本作為外部檢驗樣本,余下的n-1 個樣本作為訓練集建立回歸模型,并用這個模型去預測抽出的作為外部檢驗樣本的因變量值。

2)將第1個樣本放回原樣本數據集,依次抽出第2個樣本作為外部檢驗樣本,同樣以余下的n-1個樣本作為訓練集建立回歸模型,并預測第2個樣本的因變量值。

3)將第2個樣本放回原樣本數據集。依次按照“抽出1個樣本→余下樣本建模一預測抽出樣本一放回抽出樣本”的順序對原樣本集進行操作,直到所有樣本均被抽出一次并進行預測為止。

4)完成 LOO 交叉驗證后。計算n次抽出樣本的因變量 LOO 預測值(γ)與原抽出樣本的因變量實驗值(r)之間的相關系數( O?)及 LOO 交叉驗證均方根誤差(RMSECV),以評價模型內部預測能力。

2、LMO/LNO 交叉驗證

LMO 或 LNO 交叉驗證也是檢驗模型穩健性的另一種方法。LMO 與 LOO 的區別是 LMO 的計算過程每次從數據集中抽出多個樣本,用剩余的樣本建模并預測被抽出的多個樣本,該過程重復多次。

在LOO交叉驗證中,對于樣本數為n的訓練集,需要n次交叉驗證,在LMO交叉中,訓練集中n個樣本的順序對 LMO 的結果將產生一定的影響。假設取 M =2,即 L20 交叉驗證,對于給定順序的n個樣本訓練集,需要進行 n/2 次交叉驗證并獲得 n/2 個模型。然而,該驗證僅是所有可能2個樣本組合中(n/(n-2))的一種組合。因此,Kiralj 和 Ferreira 建議將數據集中樣本隨機排序后再進行 LMO 交叉驗證。在一些 LMO 交叉驗證中,數據集進行多次隨機化(如 10 次),取多個Q…值的平均值和標準偏差作為評價模型的穩健性。在 LMO 交叉驗證中,M 的取值目前仍然沒有固定的說法。對于大數據集,M可以取較大的數值,只要剩余的樣本數足夠用于建立一個有意義的模型,對于中度或較小的數據集(n<50),M的取值不應過大,最好的 LMO 交叉驗證是 LMO 30%(M=nx30%,n為數據集樣本數)。

3、γ隨機化驗證

隨機化驗證是確保模型穩健性常用的方法,其目的是檢驗因變量和自變量之間的偶然相關。在該驗證中,因變量Y被隨機排序并使用原始自變量矩陣X建立新的模型,該過程重復多次,例如隨機化 10-25 次。可以期望,產生的 QSAR 模型通常應具有低的 R(v隨機化相關系數)和低的 LOO 交叉驗證O值(v隨機化O)如果v隨機化得到的所有模型都具有高的R,和O 值那么意味著對于給定的數據集,用當前的建模方法不可能得到一個可接受的 QSAR 模型。

4、自舉法

自舉法的基本假設是抽出總體樣本的代表性數據集,在一個典型的自舉法驗證中從原始數據集中隨機選擇K組且每組的樣本數都為 m。某些樣本可能被多次選取,而其它的一些樣本不會被選擇。對于m個隨機選擇樣本建立的模型用來預測那些被排除在外樣本的活性。在一個典型的模型驗證中,重復抽取 10-25 次已足夠。自舉法驗證中獲得高的平均相關系數(R?和Q),則表明模型具有高的穩健性。

二、QSAR模型外部驗證方法

模型外部驗證的最好辦法是利用具體代表性和足夠大的檢驗集(也稱為預測集)來驗證,并且該檢驗集的預測值可以與觀測值(實驗值)相比較。外部驗證通常把整體數據集拆分為訓練集(training set)和檢驗集(test set)用檢驗集驗證訓練集模型。Tropsha將整體數據集拆分為訓練集、檢驗集和外部驗證集(external validation sets)進而驗證模型的預測能力,模型外部預測能力通過不同統計量或方法進行評價,這些統計量包括 Q?(或R)、Golbraikh和 Tropsha 方法等,不同統計量的數學表達式詳細列于下表。

Nzwktqsa_mmaI.png?auth_key=1673193599-0-0-1f5ac8550a8906aabfbb352d0787c0c6

此外,Golbraikh 和Tropshal提出4個條件(簡稱 Golbraikh和Tropsha方法)評價檢驗集預測值與觀測值之差,對于檢驗集,他們推薦使用下列統計特征,預測與觀測活性之間的相關系數R應接近于1相關系數R和R(預測對觀測活性的R和觀測對預測的 R?)至少一個(最好兩個)接近于R;通過原點的回歸線斜率k和k'應該接近于1。該方法的相關統計量表達式詳見表。

三、統計量參考數值

利用上表中的統計量評價 QSAR 模型的內部預測能力和外部預測能力,當統計量的數值滿足一定條件時,則認為模型可接受。根據文獻中的經驗值,統計量的參考數值列于如下:

1、模型樣本數和變量數的比值建議大于等于 5 ∶ 1

2、R?> 0. 6,Q?大于 0. 5 認為模型好,大于 0. 9 則模型優秀

3、R?> Q?,校正均方根誤差(RMSEC) < 交叉驗證均方根誤差(RMSECV);R?、Q?< 0. 3,如果差值大于 0. 3,則模型過擬合和有不相關的自變量或數據有離群值

4、在 y 隨機化中, R? yrand > Q? yrand;原始 Y 與隨機化后 Y 的 Pearson 相關系數的絕對值|r|與 R?yrand 的回歸線的截距(aR)小于 0. 3,|r|與 Q? yrand 的回歸線的截距(aQ)小于 0. 05

5、Roy 的 r?m 統計參數:Δr?m < 0. 2 和 r?m > 0. 5

四、評價 QSAR模型驗證方法

一個可接受的 QSAR/ QSPR 模型,其必備條件之一是具有高的估計相關系數(R?)和低的標準偏差。然而高的 R?和低的標準偏差對模型的驗證是不夠的,因為回歸模型可能包含很多參數。相關系數可能并不能反映變量間的真實關系,相關系數與樣本數和自變量數有關。大量樣本,其相關系數較小,但可能很顯著。小量樣本(例如小于 10),其相關系數較高,但可能不顯著。相同的樣本數,自變量數增加,模型 R?值增加(最大等于 1)。因此,必須驗證 QSAR 模型的穩定性和預測能力。

對于一個 QSAR 模型,數據集(包括樣本數、自變量和因變量等)應該滿足一定條件,才能保證模型具有顯著的統計意義和可預測能力。

1、所有化合物的活性值(因變量)分布不能集中一點或兩點,活性值應該均勻分布且具有變化較大的特點

2、應該避免使用少量樣本建模,少量樣本不能滿足數據變化較大的特征,可能導致模型存在偶然相關和較低數值的統計量

3、線性回歸模型不應包含太多的描述符(自變量),從而使得模型解釋更加復雜。對于多元線性回歸模型,一般認為樣本數和描述符數的比值至少大于 5 倍(Topliss 比例)

4、對于線性回歸模型,描述符之間應沒有明顯的相關性

LOO 交叉驗證是模型內部驗證最常用的方法,LMO 和自舉法技術也被用于 QSAR 模型內部驗證。為了驗證模型的穩定性,除了 LOO 或 LMO(LNO)交叉驗證與自舉法驗證,建議使用 y 隨機化方法檢驗 模型穩定性,通過統計量是否滿足參考數值( |r| 與 R? yrand的回歸線的截距小于 0. 3,| r | 與 Q? yrand的回歸線的截距小于 0. 05)判定模型是否存在偶然相關。

研究表明相關系數 R?與留一法(LOO)交叉驗證相關系數(Q? LOO )并沒有相關性。同樣內部預測能力和外部預測能力之間也沒有相關性。Q? LOO 不能用于評價模型的外部預測能力。QSAR 模型具有高的內部預測能力,但外部預測能力可能很低,反之亦然。因此,QSAR 模型必須通過有效的外部驗證,才能保證模型對外部樣本的預測能力。

總結

QSAR研究是人類最早的合理藥物設計方法之一,具有計算量小,預測能力好等優點。在受體結構未知的情況下,定量構效關系方法是最準確和有效地進行藥物設計的方法,根據QSAR計算結果的指導藥物化學家可以更有目的性地對生理活性物質進行結構改造。在1980年代計算機技術爆炸式發展之前,QSAR是應用最廣泛也幾乎是唯一的合理藥物設計手段。

但是QSAR方法不能明確給出回歸方程的物理意義以及藥物-受體間的作用模式,物理意義模糊是對QSAR方法最主要的質疑之一。另外在定量構效關系研究中大量使用了實驗數據和統計分析方法,因而QSAR方法的預測能力很大程度上受到試驗數據精度的限制,同時時常要面對“統計方法欺詐”的質疑。

審核編輯黃昊宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 深度學習
    +關注

    關注

    73

    文章

    5523

    瀏覽量

    121709
收藏 人收藏

    評論

    相關推薦

    軍事應用中深度學習的挑戰與機遇

    人工智能尤其是深度學習技術的最新進展,加速了不同應用領域的創新與發展。深度學習技術的發展深刻影響了軍事發展趨勢,導致戰爭形式和模式發生重大變化。本文將概述
    的頭像 發表于 02-14 11:15 ?158次閱讀

    NPU在深度學習中的應用

    隨著人工智能技術的飛速發展,深度學習作為其核心驅動力之一,已經在眾多領域展現出了巨大的潛力和價值。NPU(Neural Processing Unit,神經網絡處理單元)是專門為深度學習
    的頭像 發表于 11-14 15:17 ?1088次閱讀

    Pytorch深度學習訓練的方法

    掌握這 17 種方法,用最省力的方式,加速你的 Pytorch 深度學習訓練。
    的頭像 發表于 10-28 14:05 ?313次閱讀
    Pytorch<b class='flag-5'>深度</b><b class='flag-5'>學習</b>訓練的方法

    GPU深度學習應用案例

    GPU在深度學習中的應用廣泛且重要,以下是一些GPU深度學習應用案例: 一、圖像識別 圖像識別是深度學習
    的頭像 發表于 10-27 11:13 ?568次閱讀

    AI大模型與深度學習的關系

    AI大模型與深度學習之間存在著密不可分的關系,它們互為促進,相輔相成。以下是對兩者關系的介紹: 一、深度學習是AI大模型的基礎 技術支撐 :深度
    的頭像 發表于 10-23 15:25 ?1638次閱讀

    FPGA做深度學習能走多遠?

    的應用場景。 ? 可重構性:在深度學習高速迭代的情況,FPGA 比一些專用芯片(如 ASIC)具有更強的靈活性。當深度學習算法或模型結構發
    發表于 09-27 20:53

    深度學習中的時間序列分類方法

    時間序列分類(Time Series Classification, TSC)是機器學習深度學習領域的重要任務之一,廣泛應用于人體活動識別、系統監測、金融預測、醫療診斷等多個領域。隨著深度
    的頭像 發表于 07-09 15:54 ?1272次閱讀

    深度學習中的無監督學習方法綜述

    深度學習作為機器學習領域的一個重要分支,近年來在多個領域取得了顯著的成果,特別是在圖像識別、語音識別、自然語言處理等領域。然而,深度學習模型
    的頭像 發表于 07-09 10:50 ?1044次閱讀

    深度學習與nlp的區別在哪

    深度學習和自然語言處理(NLP)是計算機科學領域中兩個非常重要的研究方向。它們之間既有聯系,也有區別。本文將介紹深度學習與NLP的區別。 深度
    的頭像 發表于 07-05 09:47 ?1115次閱讀

    基于深度學習的小目標檢測

    在計算機視覺領域,目標檢測一直是研究的熱點和難點之一。特別是在小目標檢測方面,由于小目標在圖像中所占比例小、特征不明顯,使得檢測難度顯著增加。隨著深度學習技術的快速發展,尤其是卷積神經網絡(CNN
    的頭像 發表于 07-04 17:25 ?1134次閱讀

    深度學習中的模型權重

    深度學習這一充滿無限可能性的領域中,模型權重(Weights)作為其核心組成部分,扮演著至關重要的角色。它們不僅是模型學習的基石,更是模型智能的源泉。本文將從模型權重的定義、作用、優化、管理以及應用等多個方面,深入探討
    的頭像 發表于 07-04 11:49 ?2514次閱讀

    深度學習常用的Python庫

    深度學習作為人工智能的一個重要分支,通過模擬人類大腦中的神經網絡來解決復雜問題。Python作為一種流行的編程語言,憑借其簡潔的語法和豐富的庫支持,成為了深度學習研究和應用的首選工具。
    的頭像 發表于 07-03 16:04 ?769次閱讀

    深度學習與傳統機器學習的對比

    在人工智能的浪潮中,機器學習深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步,為眾多領域帶來了革命性的變化。然而,盡管它們都屬于機器學習的范疇,但
    的頭像 發表于 07-01 11:40 ?1607次閱讀

    深度解析深度學習的語義SLAM

    隨著深度學習技術的興起,計算機視覺的許多傳統領域都取得了突破性進展,例如目標的檢測、識別和分類等領域。近年來,研究人員開始在視覺SLAM算法中引入深度學習技術,使得
    發表于 04-23 17:18 ?1443次閱讀
    <b class='flag-5'>深度</b>解析<b class='flag-5'>深度</b><b class='flag-5'>學習</b><b class='flag-5'>下</b>的語義SLAM

    為什么深度學習的效果更好?

    導讀深度學習是機器學習的一個子集,已成為人工智能領域的一項變革性技術,在從計算機視覺、自然語言處理到自動駕駛汽車等廣泛的應用中取得了顯著的成功。深度
    的頭像 發表于 03-09 08:26 ?722次閱讀
    為什么<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的效果更好?
    主站蜘蛛池模板: 四虎永久在线观看视频精品 | 黄色大片在线免费观看 | 国产一区二区三区美女在线观看 | 一区免费视频 | 日韩精品毛片 | 久久亚洲免费视频 | 午夜色片 | 天天操天天操天天 | 天天射天天射天天射 | 亚洲免费视频在线观看 | 欧美a级网站 | 天天视频免费观看高清影视 | 欧美69视频在线 | 日韩欧美中文字幕在线播放 | 123成人网| 日韩a毛片 | 视频色www永久免费 视频色版 | 美女黄网站人色视频免费国产 | 97影院理论在线观看 | 狠狠躁夜夜躁人人躁婷婷视频 | 天天色天天草 | 夜夜橹橹网站夜夜橹橹 | 欧美经典三级春潮烂漫海棠红 | 日本亚洲在线 | 天堂bt在线种子网 | 色婷婷电影 | 亚洲五月婷婷 | 欧美一区二区三区在线观看 | 久久99精品久久久久久牛牛影视 | 久久大伊人 | 成人午夜大片免费看爽爽爽 | 欧美啪啪精品 | 手机看片1024免费视频 | 轻点太大了好深好爽h文 | 伊人狼人综合网 | 国产精品japanese人妖 | 欧美黄色片在线 | 午夜宅男视频 | 性生大片免费观看无遮挡 | 一本大道一卡二卡四卡 | 在线视频亚洲 |