麥克斯·德爾布呂克分子醫(yī)學(xué)中心的研究人員開發(fā)了一種新工具,可以更輕松地最大化深度學(xué)習(xí)在研究基因組學(xué)方面的力量。他們在《自然通訊》(Nature Communications)雜志中描述了Janggu的新方法。
想象一下,在晚餐之前,您首先必須重建專門為每種食譜設(shè)計(jì)的廚房。您將花費(fèi)更多的時(shí)間進(jìn)行準(zhǔn)備,而不是實(shí)際做飯。對(duì)于計(jì)算生物學(xué)家來說,分析基因組數(shù)據(jù)是一個(gè)類似的耗時(shí)過程。在甚至沒有開始分析之前,他們就花費(fèi)了大量寶貴的時(shí)間來格式化和準(zhǔn)備龐大的數(shù)據(jù)集,以將其輸入到深度學(xué)習(xí)模型中。
為了簡化此過程,MDC的研究人員開發(fā)了一種通用的編程工具,該工具可將各種基因組數(shù)據(jù)轉(zhuǎn)換為所需的格式,以供深度學(xué)習(xí)模型進(jìn)行分析。MDC柏林生物信息學(xué)和組學(xué)數(shù)據(jù)科學(xué)研究小組的科學(xué)家Wolfgang Kopp博士說:“以前,您最終在技術(shù)方面浪費(fèi)了很多時(shí)間,而不是專注于要解決的生物學(xué)問題。”醫(yī)學(xué)系統(tǒng)生物學(xué)研究所(BIMSB),該論文的第一作者。“有了長谷,我們的目標(biāo)是減輕某些技術(shù)負(fù)擔(dān),并使盡可能多的人可以使用它。”
Janggu的名字來自韓國傳統(tǒng)鼓形,其側(cè)面像一個(gè)沙漏。沙漏的兩個(gè)大部分代表了Janggu的重點(diǎn)領(lǐng)域:基因組數(shù)據(jù)的預(yù)處理,結(jié)果可視化和模型評(píng)估。中間的狹窄連接器代表研究人員希望使用的任何類型的深度學(xué)習(xí)模型的占位符。
深度學(xué)習(xí)模型涉及對(duì)大量數(shù)據(jù)進(jìn)行排序并找到相關(guān)特征或模式的算法。雖然深度學(xué)習(xí)是一種非常強(qiáng)大的工具,但它在基因組學(xué)中的使用受到限制。大多數(shù)已發(fā)布的模型往往只適用于固定類型的數(shù)據(jù),只能回答一個(gè)特定問題。交換或添加新數(shù)據(jù)通常需要從頭開始并進(jìn)行大量編程工作。
Janggu將不同的基因組學(xué)數(shù)據(jù)類型轉(zhuǎn)換為通用格式,可以插入使用python(一種廣泛使用的編程語言)的任何機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型中。
使我們的方法與眾不同的是,您可以輕松地使用任何基因組數(shù)據(jù)集解決您的深度學(xué)習(xí)問題,任何形式的東西都可以使用,”生物信息學(xué)和Omics數(shù)據(jù)科學(xué)研究小組負(fù)責(zé)人Altuna Akalin博士說。
Akalin的研究小組有雙重任務(wù):開發(fā)新的機(jī)器學(xué)習(xí)工具,并使用它們來研究生物學(xué)和醫(yī)學(xué)領(lǐng)域的問題。在他們自己的研究工作中,他們一直為格式化數(shù)據(jù)花費(fèi)了多少時(shí)間而感到沮喪。他們意識(shí)到問題的一部分是每個(gè)深度學(xué)習(xí)模型都包含自己的數(shù)據(jù)預(yù)處理。通過將數(shù)據(jù)提取和格式化與分析分開,它提供了一種更容易的方式來交換,合并或重用數(shù)據(jù)部分。這就像讓所有廚房工具和食材觸手可及,準(zhǔn)備嘗試新食譜一樣。
Kopp說:“困難在于在靈活性和可用性之間找到適當(dāng)?shù)钠胶狻!薄叭绻`活性太強(qiáng),人們將被淹沒在不同的選擇中,并且將很難上手。”
Kopp準(zhǔn)備了一些教程,以幫助其他人開始使用Janggu,以及示例數(shù)據(jù)集和案例研究。《自然通訊》的論文證明了Janggu在處理大量數(shù)據(jù),組合數(shù)據(jù)流以及回答不同類型的問題(例如根據(jù)DNA序列和/或染色質(zhì)可及性預(yù)測結(jié)合位點(diǎn)以及分類和回歸任務(wù))方面的多功能性。
盡管Janggu的大部分優(yōu)勢都在前端,但研究人員希望為深度學(xué)習(xí)提供完整的解決方案。Janggu還包括在深度學(xué)習(xí)分析之后的可視化結(jié)果,并評(píng)估模型學(xué)到的知識(shí)。值得注意的是,該團(tuán)隊(duì)在包裝中加入了“高階序列編碼”,從而可以捕獲相鄰核苷酸之間的相關(guān)性。這有助于提高某些分析的準(zhǔn)確性。通過使深度學(xué)習(xí)更容易且更友好,Janggu幫助打開了回答各種生物學(xué)問題的大門。
“最有趣的應(yīng)用之一是預(yù)測突變對(duì)基因調(diào)控的影響,” Akalin說。“這令人興奮,因?yàn)楝F(xiàn)在我們可以開始了解單個(gè)基因組,例如,我們可以查明引起調(diào)節(jié)變化的遺傳變異,或者我們可以解釋腫瘤中發(fā)生的調(diào)節(jié)突變。
-
連接器
+關(guān)注
關(guān)注
99文章
15089瀏覽量
138832 -
編程語言
+關(guān)注
關(guān)注
10文章
1952瀏覽量
35746 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5547瀏覽量
122309
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
研究人員開發(fā)出基于NVIDIA技術(shù)的AI模型用于檢測瘧疾
明晚開播 |開源芯片系列講座第26期:奕斯偉RISC-V GCC工具鏈實(shí)踐分享

直播預(yù)約 |開源芯片系列講座第26期:奕斯偉RISC-V GCC工具鏈實(shí)踐分享

研究人員利用激光束開創(chuàng)量子計(jì)算新局面

喜報(bào)!武漢普賽斯獲批2024年湖北省工程研究中心

柔軟可拉伸的新型3D打印材料可改善可穿戴傳感應(yīng)用
日本九州大學(xué)開發(fā)了名為QDyeFinder的人工智能(AI)工具
研究人員提出一種電磁微鏡驅(qū)動(dòng)系統(tǒng)
研究人員制造可將短波紅外光的頻率“上轉(zhuǎn)換”到可見光頻率范圍裝置
研究人員:微生物電池可能會(huì)對(duì)遠(yuǎn)程應(yīng)用產(chǎn)生巨大影響
基于一種AI輔助可穿戴微流控比色傳感器系統(tǒng)

研究人員利用人工智能提升超透鏡相機(jī)的圖像質(zhì)量

英特爾開發(fā)300毫米低溫檢測工藝,為量產(chǎn)硅基量子處理器奠定基礎(chǔ)
一種可實(shí)現(xiàn)穩(wěn)定壓力傳感的新型可拉伸電子皮膚
研究人員利用定制光控制二維材料的量子特性

評(píng)論