據(jù)DNA存儲(chǔ)研究人員透露,現(xiàn)在的技術(shù)可以利用DNA將數(shù)據(jù)壓縮成方糖的大小。是不是據(jù)地有點(diǎn)不可思議,微軟與華盛頓大學(xué)的研究員們已經(jīng)演示相關(guān)方案,他還告訴我們每條DNA中存儲(chǔ)一個(gè)數(shù)字化文件,而且存儲(chǔ)在DNA鏈中的數(shù)據(jù)可以持續(xù)數(shù)萬(wàn)年之久。
微軟與華盛頓大學(xué)的研究員們已經(jīng)演示相關(guān)方案,旨在利用合成DNA作為數(shù)據(jù)歸檔存儲(chǔ)介質(zhì)。如果這項(xiàng)技術(shù)足夠強(qiáng)大,則完全可以將沃爾瑪這樣的巨型企業(yè)的全部數(shù)據(jù)存儲(chǔ)設(shè)備縮小為一塊方糖尺寸,研究員們指出。
DNA存儲(chǔ)——延續(xù)千年的承載介質(zhì)。
微軟與華盛頓大學(xué)的研究員們已經(jīng)演示相關(guān)方案,旨在利用合成DNA作為數(shù)據(jù)歸檔存儲(chǔ)介質(zhì)。
如果這項(xiàng)技術(shù)足夠強(qiáng)大,則完全可以將沃爾瑪這樣的巨型企業(yè)的全部數(shù)據(jù)存儲(chǔ)設(shè)備縮小為一塊方糖尺寸,研究員們指出。
“我們認(rèn)為時(shí)機(jī)已經(jīng)成熟,基于DNA的存儲(chǔ)方案已經(jīng)具備可行性,且能夠立足于此設(shè)計(jì)并架構(gòu)相關(guān)系統(tǒng),”研究員們?cè)谄湔撐闹袑?xiě)道。
該研究團(tuán)隊(duì)已經(jīng)成功將來(lái)自四幅圖片的數(shù)字化數(shù)據(jù)存儲(chǔ)在合成DNA片段當(dāng)中。更重要的是,他們亦能夠逆轉(zhuǎn)該過(guò)程——即從較大DNA池中檢索正確序列,并利用提取到的完整字節(jié)重構(gòu)圖像。
華盛頓大學(xué)計(jì)算機(jī)科學(xué)與工程研究科學(xué)家們混合DNA樣本以實(shí)現(xiàn)存儲(chǔ)功能。每條DNA中存儲(chǔ)一個(gè)數(shù)字化文件。
另一項(xiàng)實(shí)驗(yàn)則證明,華盛頓大學(xué)的“盧旺達(dá)法庭之聲”項(xiàng)目能夠編碼并檢索數(shù)據(jù),從而實(shí)現(xiàn)視頻文件歸檔。該項(xiàng)目共使用49段視頻,分別來(lái)自盧旺達(dá)戰(zhàn)爭(zhēng)罪法庭中對(duì)法官、律師以及其他相關(guān)人員的訪談。
“生命造就了DNA這一夢(mèng)幻般的分子,其能夠有效存儲(chǔ)各類(lèi)基因信息以及生命系統(tǒng)的運(yùn)作方式——其非常緊湊且極為耐用,”威斯康星大學(xué)計(jì)算機(jī)科學(xué)與工程副教授、研究論文聯(lián)合作者Luis Ceze表示。
“我們基本上就是在利用DNA存儲(chǔ)數(shù)字化數(shù)據(jù)——包括圖片、視頻、文檔,且其管理周期能夠長(zhǎng)達(dá)數(shù)百甚至數(shù)千年,”他補(bǔ)充稱(chēng)。
DNA數(shù)據(jù)存儲(chǔ)研究進(jìn)展神速。1999年,DNA存儲(chǔ)方案還僅僅只能編碼并恢復(fù)長(zhǎng)度為23個(gè)字節(jié)的信息。
到2013年,來(lái)自英國(guó)EMBL歐洲生物信息學(xué)研究院的科學(xué)家們已經(jīng)能夠?qū)ⅠR丁·路德·金的“我有一個(gè)夢(mèng)想”演講MP3文件存儲(chǔ)在DNA當(dāng)中。
研究員們?cè)凇蹲匀弧冯s志上發(fā)表的論文中指出,只需一杯DNA即可存儲(chǔ)至少長(zhǎng)達(dá)1億小時(shí)的高清視頻數(shù)據(jù)。
而且根據(jù)英國(guó)研究員們的解釋?zhuān)鎯?chǔ)在DNA鏈中的數(shù)據(jù)可以持續(xù)數(shù)萬(wàn)年之久。
讀取DNA的方式非常簡(jiǎn)單,但向其中寫(xiě)入?yún)s難度很大。這方面共存在兩項(xiàng)挑戰(zhàn):其一,利用現(xiàn)代方案僅能制造短DNA序列;其二,DNA在寫(xiě)入與讀取時(shí)容易出錯(cuò),特別是在重復(fù)相同的DNA字母時(shí)。
以上三幅圖片為此次DNA數(shù)據(jù)存儲(chǔ)實(shí)驗(yàn)中的對(duì)象。
微軟與華盛頓大學(xué)的研究員們指出,他們開(kāi)發(fā)出了“一種新型方案”,能夠?qū)㈤L(zhǎng)字符串轉(zhuǎn)換為DNA序列的四種基本組成部分——腺嘌呤、鳥(niǎo)嘌呤、胞嘧啶與胸腺嘧啶,分別簡(jiǎn)寫(xiě)為A、G、C與T。
要訪問(wèn)這些數(shù)據(jù),研究員們?cè)贒NA序列內(nèi)編制出類(lèi)似于郵編及街道地址的符號(hào)。聚合酶鏈反應(yīng)(簡(jiǎn)稱(chēng)PCR)技術(shù)——常用于分子生物學(xué)當(dāng)中——幫助他們能夠更為輕松地識(shí)別自己正在搜索的郵編。
利用DNA測(cè)序技術(shù),研究人員得以“讀取”數(shù)據(jù),并利用街道地址重新排序數(shù)據(jù)以將其恢復(fù)為視頻、圖片或者文檔。
“將1和0轉(zhuǎn)換為A、G、C和T非常重要,因?yàn)橹挥胁捎梅浅>畹膶?shí)現(xiàn)方式,我們才能提高存儲(chǔ)密度并降低錯(cuò)誤率,”論文聯(lián)合作者Georg Seelig解釋稱(chēng)。
微軟與華盛頓大學(xué)的研究員們宣稱(chēng),他們已經(jīng)在編程語(yǔ)言與操作系統(tǒng)架構(gòu)支持ACM國(guó)際大會(huì)上公布了研究成果。
“DNA擁有可觀的發(fā)展?jié)摿Γ毖芯繂T們表示,因?yàn)槠浯鎯?chǔ)密度極高,理論極限比磁帶高出八個(gè)量級(jí)。磁帶技術(shù)能夠在巴掌大的卡帶中存儲(chǔ)最高185 TB數(shù)據(jù)。
微軟與華盛頓大學(xué)的研究員們還證實(shí)了合成DNA的長(zhǎng)效性,稱(chēng)其能夠在惡劣環(huán)境中帶來(lái)超過(guò)500年的半衰期。相比之下,磁帶壽命為10到30年,而磁盤(pán)驅(qū)動(dòng)器則僅為3到5年——研究員們指出。
研究員們還強(qiáng)調(diào)稱(chēng),預(yù)計(jì)到2020年存儲(chǔ)于計(jì)算機(jī)中的全部數(shù)據(jù)——包括歸檔、視頻、圖片、企業(yè)系統(tǒng)數(shù)據(jù)以及移動(dòng)設(shè)備信息——將達(dá)到44萬(wàn)億GB,這一數(shù)字來(lái)自IDC與EMC的研究報(bào)告。
“這相當(dāng)于2013年全部數(shù)據(jù)總量的十倍。雖然并非全部信息都需要進(jìn)行長(zhǎng)期保存,但可以肯定的是數(shù)據(jù)存儲(chǔ)設(shè)備的增長(zhǎng)速度完全跟不上數(shù)據(jù)的產(chǎn)生速度。”
不過(guò)在投入商業(yè)使用之前,DNA存儲(chǔ)系統(tǒng)還需要克服一系列難題。首先,DNA合成與測(cè)序的效果還遠(yuǎn)稱(chēng)不上完美,每核苷酸中仍存在1%的排序錯(cuò)誤率。因此,DNA存儲(chǔ)需要設(shè)計(jì)出合適的編碼方案,從而帶來(lái)額外的容錯(cuò)能力。
再有,DNA存儲(chǔ)不擅長(zhǎng)實(shí)現(xiàn)隨機(jī)數(shù)據(jù)存取,這意味著整體而言讀取延遲遠(yuǎn)高于寫(xiě)入延遲。目前的進(jìn)展只能夠?qū)崿F(xiàn)大型數(shù)據(jù)塊存取;即使僅讀取單個(gè)字節(jié),也必須對(duì)整套DNA庫(kù)進(jìn)行測(cè)序與解碼。
科學(xué)家們已經(jīng)提出了對(duì)應(yīng)的解決方案,即利用聚合酶鏈?zhǔn)椒磻?yīng)(簡(jiǎn)稱(chēng)PCR)對(duì)需要的數(shù)據(jù)進(jìn)行定向放大,從而通過(guò)針對(duì)性測(cè)序改善隨機(jī)接入能力。如此一來(lái),我們將不再需要對(duì)整套DNA庫(kù)進(jìn)行測(cè)序。
“這是我們借用大自然產(chǎn)物的絕對(duì)實(shí)例,”Ceze解釋稱(chēng)。“但我們也在使用現(xiàn)有計(jì)算機(jī)技術(shù)對(duì)其加以完善,例如如何糾正內(nèi)存錯(cuò)誤,并讓最終成果回歸自然。”
評(píng)論
查看更多