有声读物,我欲封天耳根小说,穿越小说完本

你去將你的基因組測序了嗎？世界上已有數百萬人去測過了，到2025年，這一數字可能會達到10億。

研究人員獲得的基因組數據越多，個人和公共健康的前景就越好。產前DNA測序已經可以篩查出發育異常。過不了多久，患者將可以對他們的血液進行測序，以發現任何可能標志著某種傳染病的非人類DNA。未來，與癌癥打交道的人將能夠通過每天對來自多個組織的細胞的DNA和RNA進行測序來跟蹤疾病的變化情況。

整個人群的DNA測序將使得我們可以對整個社會的健康狀況有更全面的了解。英國Biobank雄心勃勃，其目標是對50萬名志愿者的基因組進行測序，并跟蹤研究數十年。目前，人群范圍的基因組研究通常被用來識別與特定疾病相關的突變。定期對空氣、土壤和水中的生物進行測序將有助于追蹤流行病、食物病原體、毒素等等。

這樣的愿景的實現有賴于對超大量的數據的存儲和分析。通常情況下，DNA測序儀處理一個人的整個基因組就會產生數十至數百千兆字節的數據。數百萬人的基因組數據累加起來，所需要的存儲空間將達到數十艾字節。

而這僅僅是個開始。發現基因組數據有用的科學家、醫生和其他人不會僅對每個人進行一次測序——對于同一個個體，他們會希望隨著時間的推移對多個組織中的多個細胞進行重復測序。隨著測序速度的提高和成本的下降（現在個人基因組測序只需1000美元，而且價格正在快速下降），他們還希望對其他動物、植物、微生物和整個生態系統的DNA進行測序。而新應用甚至新產業的出現將帶來更多測序。

雖然很難預測基因組數據的全部未來收益，但我們已經看到了一個不可避免的挑戰：所需要的存儲空間幾乎是難以想象的大。目前，存儲基因組數據的費用仍然只是實驗室總體預算的一小部分。但是這種費用正在急劇升高，幅度遠遠超過了存儲硬件價格的下降。在未來五年內，存儲數十億人、動物、植物和微生物的基因組的成本將輕松達到每年數十億美元。這些數據需要保存幾十年，甚至更長時間。

將數據壓縮顯然有助于解決其存儲問題。生物信息學專家已經使用像gzip這樣的標準壓縮工具將文件大小縮小到了原來的1/20。一些研究人員還使用針對基因組數據的更專業的壓縮工具，但這些工具并沒有被廣泛采用。我們兩個人都在研究數據壓縮算法，我們認為現在是時候提出一種效率更高、速度更快、更適合基因組數據獨特特性的新壓縮方案了。正如專用的視頻和音頻壓縮方案對于像YouTube和Netflix這樣的流媒體服務至關重要一樣，要從爆炸式增長的基因組數據中盡可能多地獲益，專門針對基因組數據的高效壓縮方案將是十分必要的。

圖片來源：Stephens ZD,Lee SY,Faghri F,Campbell RH,Zhai C,Efron MJ,et al.2015,PLoS Biol 13(7).

人類基因組測序的增長：自2001年人類基因組序列草圖首次發表以來，測序的人類基因組數量和測序能力的增長速度都有了顯著提高。2015年后的三條線代表三種可能的增長曲線。

在我們解釋如何更好地壓縮基因組數據之前，讓我們仔細研究一下數據本身。“基因組”在這里指的是四種堿基核苷酸——腺嘌呤（adenine）、胞嘧啶（cytosine）、鳥嘌呤（guanine）和胸腺嘧啶（thymine）——的序列，它們分別由我們熟悉的DNA中的A、C、G、T四個字母表示。這些核苷酸出現在A-T和C-G堿基對組成的鏈中，人類基因組中的23對染色體都是由這兩種堿基對構成的。大多數人類細胞中，這些染色體包含約60億個核苷酸，包括編碼基因、非編碼元件（如染色體末端的端粒）、調節元件和線粒體DNA。Illumina、Oxford Nanopore Technologies和Pacific Biosciences等公司生產的DNA測序儀器，能夠在數小時內從一個人的DNA樣本中自動完成對其基因組的測序。

這些商業化的DNA測序儀不會產生整個基因組長度的ACGT字符串，而是產生大量子串或“讀數”（reads）。這些讀數會部分重疊，需要序列組裝軟件基于它們重建出完整的基因組。一般來說，當進行整個基因組測序時，每個基因組片段長度不超過100個讀數。

根據所使用的測序技術，讀數的長度可能從大約100到100,000個堿基對變化，讀數的總數可能從數百萬到數百億不等。短讀數可以發現單個堿基對突變，而較長的讀數更適用于檢測復雜的變異，如數千個堿基對的刪除或插入。

DNA測序是一個嘈雜的過程，讀數中包含錯誤是很常見的。因此，除了ACGT核苷酸字符串之外，每個讀數包含一個質量分數，表明測序儀對每個DNA核苷酸測序結果的信任度。測序儀將它們的質量分數表示為錯誤概率的對數。它們使用的算法是專有的，但事后可以檢查。如果質量得分為20（對應于1％的錯誤概率），用戶可以確認在已知的DNA序列中約1％的堿基對是不正確的。使用這些文件的程序依賴質量分數來將測序錯誤和突變區分開來。真正的突變會比測序錯誤顯示出更高的平均質量分數，也就是說其錯誤概率更低。

測序儀將字符串和質量分數以及一些其他元數據逐個讀數地粘在一起，形成所謂的FASTQ文件。一個完整基因組的FASTQ文件通常包含數十到數百千兆字節。

這些文件也非常冗余，這源于任何兩個人的基因組幾乎完全相同這個事實。平均而言，兩個人的基因組在每1,000個核苷酸中大約有一個核苷酸不同，通常這些基因差異是很有趣的。一些DNA測序針對特定的差異區域，例如，像23andMe這樣的DNA基因分型應用程序只尋找特定的變異，而刑事調查中的DNA分析則去尋找特定標記重復次數的變異。

但是，如果你不知道有趣的東西在哪里（比如當你試圖診斷一種未知基因來源的疾病時），你就需要對整個基因組進行測序，這就意味著你需要獲取更大量的測序數據。

測序數據的重復也來自于為清除錯誤而多次讀取基因組的相同部分。有時，一個樣本中包含一個序列的多個變異，因此你想重復對其進行測序以捕獲這些變異。比如說你正試圖檢測一個組織樣本中的一些癌細胞或一個孕婦的血液中的胎兒DNA痕跡，這可能就意味著要對每個DNA堿基對多次測序（通常超過100次）以區分罕見變異與更常見變異，以及它們與測序錯誤的真正區別。

讀數和參考基因組：一個DNA“讀數”（頂部字符串）與人的參考基因組的一小部分（底部字符串）大致匹配。插入、刪除和替換（由于DNA測序過程中的突變或噪聲）導致不完美匹配。為了編碼一個讀數，我們可以聲明其在參考基因組中的起始位置并描述所有變異。

現在，你應該更好地理解了為什么DNA測序會產生如此多的冗余數據。事實證明，這種冗余對于數據壓縮是有利的。對于相同的基因組數據塊，你可以只存儲一個副本，而不是存儲多個副本。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

冗余

冗余

+關注

關注
1

文章
112

瀏覽量
20490
基因

基因

+關注

關注
0

文章
95

瀏覽量
17455

原文標題：面臨挑戰的基因組數據壓縮技術（上）

文章出處：【微信號：IEEE_China，微信公眾號：IEEE電氣電子工程師】歡迎添加關注！文章轉載請注明出處。

Xilinx FPGA在基因組測序中的優勢

PrecisionFDA平臺是基因組信息學社區和共享數據平臺，這是一個為研究人員準備的開源、基于云的工具，它將為下一代測序診斷提供依據，并且為所有開發者提供統一的、可共享的在線基因組信

發表于 07-11 08:33 ?2016次閱讀

全基因組數據CNV分析簡介精選資料分享

除了利用aCGH和snp芯片來檢測CNV之外，也可以通過NGS數據來分析CNV, 比如全基因組和全外顯子測序。針對全基因組CNV的檢測，還針對開發了一種稱之為C...

發表于 07-29 08:24

全基因組測序的優勢精選資料分享

全基因組測序的優勢目前，隨著高通量測序技術快速發展、測序成本的進一步降低以及組裝方法的不斷完善，全基因組

發表于 07-29 08:31

全基因組CNV分析的策略是什么？

全基因組CNV分析的策略是什么？

發表于 10-27 06:43

全基因組測序的優勢是什么？

全基因組測序的優勢是什么？

發表于 10-27 06:27

什么是基因組序列數據庫

什么是基因組序列數據庫 GSDB是基因組序列數據庫（Genome Sequence Data Base），由美國新墨西哥州Santa Fe的國家基

發表于 06-17 07:37 ?1523次閱讀

區塊鏈對基因組數據的保護

我相信，我是唯一有權擁有關于我的基因組信息的人，就像我有表達想法的權利，選擇工作或宗教的權利。

發表于 07-16 09:12 ?870次閱讀

FPGA能在實時基因組測序計算中大顯身手，大大縮短時間

目前，FPGA在實時基因組測序計算大顯身手，把測序時間從30小時縮短到26分鐘，之后基因組測序計算時間將會縮短到10分鐘，預計一個全序列

發表于 10-09 16:51 ?2133次閱讀

國產芯片助力全球首次實現手機個人全基因組測序分析

在手機上也能進行全基因組測序分析？沒錯！據麥姆斯咨詢報道，近日，生命大數據高峰論壇暨第四屆基因組云計算技術開發者峰會（GCTA 4），在貴州

發表于 05-30 14:54 ?3071次閱讀

國產芯片助力全球首次實現手機個人全基因組測序分析

在手機上也能進行全基因組測序分析？沒錯！近日，生命大數據高峰論壇暨第四屆基因組云計算技術開發者峰會（GCTA 4）在貴州貴陽新世界酒店隆重舉

發表于 06-05 15:08 ?3976次閱讀

華大發布高精度基因組標準及解決方案開啟基因組測序“全高清”時代

基因組測序“全高清”時代！

發表于 06-19 15:10 ?3433次閱讀

AI加速推動醫療個體化轉型 基因組學將有望成為未來發展主流

自2003年首次對人類基因組進行測序以來，整個基因組測序流程的成本就一直在下降，而且下降的速度遠快于根據摩爾定律所預測的速度。從新生兒基因組

發表于 01-02 10:41 ?954次閱讀

微流控芯片技術在單細胞基因組學研究中的應用

單細胞基因組學包括單細胞全基因組測序和以單細胞和微量細胞為材料的全基因組范圍內的基因功能研究。功能基因組

發表于 03-03 13:04 ?2317次閱讀

人工智能如何改變基因組學？

人進行測序，還是大規模人群的遺傳學研究，全基因組測序正在成為臨床工作流程和藥物研發的重要一環。但基因組測序只是第一步。

發表于 04-05 00:25 ?755次閱讀

GPU助力基因組重測序分析

等。隨著近幾年基因測序成本如圖 1所示不斷下降，在萬元內即可完成人類的全基因組測序，GPU的技術發展也帶來分析成本與時間的下降，于是用于檢測

發表于 08-01 10:32 ?2130次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

你去將你的基因組測序了嗎？面臨挑戰的基因組數據壓縮技術

評論

Xilinx FPGA在基因組測序中的優勢

全基因組數據CNV分析簡介精選資料分享

全基因組測序的優勢精選資料分享

全基因組CNV分析的策略是什么？

全基因組測序的優勢是什么？

什么是基因組序列數據庫

區塊鏈對基因組數據的保護

FPGA能在實時基因組測序計算中大顯身手，大大縮短時間

國產芯片助力全球首次實現手機個人全基因組測序分析

國產芯片助力全球首次實現手機個人全基因組測序分析

華大發布高精度基因組標準及解決方案開啟基因組測序“全高清”時代

AI加速推動醫療個體化轉型基因組學將有望成為未來發展主流

微流控芯片技術在單細胞基因組學研究中的應用

人工智能如何改變基因組學？

GPU助力基因組重測序分析