在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

內(nèi)存比較小的時候碰到大量數(shù)據(jù)應(yīng)該如何解決

Wildesbeast ? 來源:搜狐新聞 ? 作者:Hadoop技術(shù)博文 ? 2019-12-15 12:20 ? 次閱讀

當(dāng)你寫了一個處理數(shù)據(jù)的軟件,它可能在小樣本文件上運行地很好,但一旦加載大量真實數(shù)據(jù)后,這個軟件就會崩潰。

問題在于你沒有足夠的內(nèi)存——如果你有 16GB 的 RAM ,你就無法一次載入 100GB 大小的文件。載入這么大的文件時,操作系統(tǒng)在某個時刻就會耗盡內(nèi)存,不能分配存儲單元,你的程序也就會崩潰。

所以,你該怎樣防止這類情況發(fā)生?你可以啟動一個大數(shù)據(jù)集群——你所需要做的是:

搞到一個計算機集群。

花一周時間搭建這個集群。

大部分情況下,你需要學(xué)習(xí)一套全新的 API,重寫你所有的代碼。

這個代價可能很昂貴,會令人沮喪;幸運的是,大部分情況下,我們不必這樣做。

你需要一個簡單而容易的解決方案:在單機上處理你的數(shù)據(jù),最小化環(huán)境搭建開銷,盡可能利用你正在使用的代碼庫。實際上,大部分情況你都可以做到這樣,只要使用一些方法即可,有時候這些方法被稱為“核外計算”(out-of-core computation)。

本文將介紹如下內(nèi)容:

你究竟為什么需要 RAM。

處理無法放入內(nèi)存的數(shù)據(jù)最簡單的方法:花些錢。

處理大量數(shù)據(jù)的三種基本軟件方法:壓縮、分塊、索引

之后的文章將會展示如何把這些方法應(yīng)用到諸如 NumPy 和 Pandas 這樣的庫中。

1你究竟為什么需要 RAM?

在我們開始解釋解決方案前,我們要弄清楚該問題是如何產(chǎn)生的。我們的計算機內(nèi)存(RAM)能讓你讀寫數(shù)據(jù),但是你的硬盤也可以讀寫數(shù)據(jù)——那為什么計算機還需要 RAM 呢?硬盤比 RAM 更便宜,所以它通常大到能夠容納下你的所有數(shù)據(jù),那為什么你的代碼不能直接從硬盤讀寫數(shù)據(jù)呢?

理論上講,這也行得通的。但是,即使是最現(xiàn)代化且速度很快的 SSD 硬盤也比 RAM 慢太多:

從 SSD 上讀取數(shù)據(jù): 大約 1.6 萬納秒

從 RAM 上讀取數(shù)據(jù): 大于 100 納秒

如果你想要實現(xiàn)快速計算,數(shù)據(jù)就只能放在 RAM 中,否則你的代碼運行時就會慢上 150 倍。

2資金方面的解決方案:購買更多的 RAM

沒有足夠 RAM 時的最簡單解決方案就是花錢來解決。你要么購買一臺計算機,或者租一臺云端的虛擬機(VM:Virtual Machine,這會比大多數(shù)筆記本電腦貴得多)。2019 年 11 月,我稍微調(diào)研了一下,在價格方面做了一些比較,發(fā)現(xiàn)你可以這樣:

購買 一臺 Thinkpad M720 Tower,它有 6 個核和 64GB RAM,價格是 1074 美金。

租用 一臺云端的 VM,它有 64 個核和 432GB RAM,價格是每小時 3.62 美金。

這只是我稍微調(diào)研后發(fā)現(xiàn)的數(shù)字,再繼續(xù)調(diào)研下去,你會發(fā)現(xiàn)更好的方案。

如果花錢購買硬件可以把你的數(shù)據(jù)讀入 RAM,這通常就會是一個最經(jīng)濟的解決方案:畢竟你的時間相當(dāng)寶貴。但是,有時候,這還不夠解決這個問題。

例如,如果你要運行許多數(shù)據(jù)處理任務(wù),在一段時期內(nèi),云計算可能是一個自然能想到的解決方案,但也是一個昂貴的解決方案。曾經(jīng)在一個工作中,我的軟件項目需要的計算開銷幾乎快用完了我們產(chǎn)品所有的預(yù)期收入,包括支付我薪水所需的至關(guān)重要的那部分收入。

如果購買 / 租用更多的 RAM 不足以滿足需求或者根本行不通時,下一步就應(yīng)該考慮如何通過修改軟件來減少內(nèi)存使用了。

3技巧 #1:壓縮

壓縮意味著用一種不同的表達(dá)形式表示你的數(shù)據(jù),這種形式能占用更少內(nèi)存。有兩種方式來壓縮:

無損壓縮: 存儲的數(shù)據(jù)包含的信息和原始數(shù)據(jù)包含的信息完全相同。

有損壓縮: 存儲的數(shù)據(jù)丟失了一些原始數(shù)據(jù)里的細(xì)節(jié)信息,但是這種信息丟失理想情況下不會對計算結(jié)果造成什么影響。

我想說明的是,我不是在談?wù)撌褂?ZIP 或者 gzip 工具來壓縮文件,因為這些工具通常是對硬盤上的文件進行壓縮的。為了處理 ZIP 壓縮過的文件,你通常需要把這個文件載入內(nèi)存中再進行解壓縮為原始文件大小,所以這其實對內(nèi)存節(jié)省沒有什么幫助。

你需要的是內(nèi)存中的數(shù)據(jù)壓縮表示形式。

例如,比如說你的數(shù)據(jù)有兩個值,一共也只會有兩個值:“AVAILABLE”(代表可能取到的值)和“UNAVAILABLE”(代表不可能取到的值)。我們可以不必將其存為 10 個或更多字節(jié)的字符串,你可以將其存為一個布爾值,用 True 或者 False 表示,這樣你就可以只用 1 個字節(jié)來表示了。你甚至可以繼續(xù)壓縮至 1 位來表示布爾值,這樣就繼續(xù)壓縮到了 1 個字節(jié)時的 1/8 大小。

4技巧 #2:分塊,每次只加載所有數(shù)據(jù)里的某一塊

當(dāng)你需要處理所有數(shù)據(jù),而又無需把所有數(shù)據(jù)同時載入內(nèi)存時,分塊是很有用的。你可以把數(shù)據(jù)按塊載入內(nèi)存,每次計算一塊的數(shù)據(jù)(或者正如我們要在今后一篇文章里想討論的,可以多塊并行處理)。

例如,比如說,你想搜索一本書里的最長單詞。你可以一次性將所有數(shù)據(jù)載入內(nèi)存:

largest_word = “” for word in book.get_text.split: if len(word) 》 len(largest_word):largest_word = word

但是在我們的例子中,這本書太大而不能完全載入內(nèi)存,這時候你就可以一頁一頁地載入這本書。

largest_word = “” for page in book.iterpages: for word in page.get_text.split: if len(word) 》 len(largest_word): largest_word = word

這樣你使用的內(nèi)存就大大減少了,因為你一次只需要把這本書的一頁載入內(nèi)存,而最后得到的結(jié)果仍然是正確的。

5技巧 #3:當(dāng)你需要數(shù)據(jù)的一個子集時,索引會很有用

當(dāng)你需要數(shù)據(jù)的一個子集時,索引會很有用,使用索引你可以在不同時刻加載數(shù)據(jù)的不同子集。

你也可以用分塊解決這個問題:每次加載所有的數(shù)據(jù),過濾掉你不想要的數(shù)據(jù)。但這會很慢,因為你加載了很多不相關(guān)的數(shù)據(jù)。

如果你只需要部分?jǐn)?shù)據(jù),不要使用分塊,最好使用索引,它可以告訴你到哪里能找出你關(guān)心的那部分?jǐn)?shù)據(jù)。

想象一下,你只想閱讀書本中關(guān)于土豚的章節(jié)。如果你運用分塊技術(shù),你得載入整本書,一頁一頁的載入,每頁地搜尋土豚——但這要花很長時間才能完成。

或者說,你可以直接閱讀這本書的末尾部分,也就是書本的索引部分,然后找到“土豚”的索引項。它可能會告訴你在第 7、19 頁以及 120-123 頁可以讀到相關(guān)內(nèi)容。所以,現(xiàn)在你可以只讀那幾頁,這樣就快多了。

這樣很有效,因為索引比整本書占用的空間要小很多,所以把索引載入內(nèi)存找出相關(guān)內(nèi)容所在就會更容易。

6最簡單的索引技巧

最簡單也最常用的實現(xiàn)索引的方法就是在目錄里給文件恰當(dāng)命名:

mydata/ 2019-Jan.csv 2019-Feb.csv 2019-Mar.csv 2019-Apr.csv 。..

如果你想要 2019 年 3 月數(shù)據(jù),你就只需要加載 2019-Mar.csv 這個文件——而不用加載 2 月、7 月或者其他任何月份的數(shù)據(jù)。

7下一步:應(yīng)用這些技巧

RAM 不夠用,最簡單的解決方法就是花錢買更多的 RAM。但是,如果這個方案無法實現(xiàn)或者仍然不夠用時,你就需要使用壓縮、分塊或者索引來解決。

這些方法也出現(xiàn)在其他許多不同的軟件包和工具中。即使是大數(shù)據(jù)系統(tǒng)也是建立在這些方法之上的:例如使用多個計算機來處理分塊數(shù)據(jù)。

在接下來的文章里,我會給你展示如何使用具體的庫和工具(NumPy、Pandas,或者用 ZIP 工具壓縮文件)來應(yīng)用這些方法。如果在我寫完這些文章時,你就想閱讀到它們,請在下方表格里注冊我的通訊簡報(newsletter)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • RAM
    RAM
    +關(guān)注

    關(guān)注

    8

    文章

    1391

    瀏覽量

    116970
  • 程序
    +關(guān)注

    關(guān)注

    117

    文章

    3825

    瀏覽量

    82558
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8953

    瀏覽量

    139671
收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    ADAS1000數(shù)據(jù)讀取后DRDY引腳無法回到高電平的情況應(yīng)該何解決?

    排除所燒錄的程序問題,請問出現(xiàn)這種故障應(yīng)該何解決,硬件電路連接相比較之前沒有做出改變,但PCB的走線可能有所變化,請問走線的變化是否會引起這種變化?目前ADAS1000數(shù)據(jù)讀取后DR
    發(fā)表于 12-27 08:06

    TLV3502比較器輸出幅值較小且有很多毛刺如何解決?

    電路原理圖如上圖所示TLV3502接成窗口比較器結(jié)構(gòu) 上限電平為5V 下限電平為可調(diào)節(jié) 設(shè)為0.8V 輸出通過或非門邏輯 得到OUT 圖中R8未連 R9為10K OUT的波形從原理上應(yīng)該為5V方波 實際為 幅值較小 且有很
    發(fā)表于 08-21 08:09

    當(dāng)碰到仿真器連接不上C2000芯片的時候何解決?

    看到很多壇友碰到仿真器連接不上芯片的問題常常一籌莫展。所以談?wù)劗?dāng)碰到仿真器連接不上C2000芯片的時候該怎么辦。首先,由于對工程師而言C2000芯片是黑盒,仿真器也是黑盒,所以我們無法從本質(zhì)上確認(rèn)
    發(fā)表于 07-23 09:02

    何解決DMA傳輸數(shù)據(jù)內(nèi)存的問題?

    如何減少存儲空間?如何控制脈沖數(shù)量?如何解決DMA傳輸數(shù)據(jù)內(nèi)存的問題?
    發(fā)表于 12-21 07:53

    QCC3005芯片Line IN 聽歌的時候聲音比較小是什么原因

    QCC3005芯片 Line IN 聽歌的時候聲音比較小,這時候用ADK config tool工具連上,這時候聲音就變大了,這是什么原因呢,怎么讓Line in接通音樂的
    發(fā)表于 01-14 07:59

    Keil編譯錯誤improper fixup應(yīng)該何解

    本文檔的有內(nèi)容詳細(xì)介紹的是Keil編譯錯誤improper fixup應(yīng)該何解決。
    發(fā)表于 07-31 17:35 ?3次下載
    Keil編譯錯誤improper fixup<b class='flag-5'>應(yīng)該</b>如<b class='flag-5'>何解</b>決

    ORCAD原理圖中有哪些常見DRC錯誤應(yīng)該何解

    本文檔的主要內(nèi)容詳細(xì)介紹的是ORCAD原理圖中有哪些常見DRC錯誤應(yīng)該何解決。
    發(fā)表于 07-30 17:22 ?0次下載
    ORCAD原理圖中有哪些常見DRC錯誤<b class='flag-5'>應(yīng)該</b>如<b class='flag-5'>何解</b>決

    Access數(shù)據(jù)庫不能寫的問題應(yīng)該何解決詳細(xì)辦法說明

    本文檔的主要內(nèi)容詳細(xì)介紹的是Access數(shù)據(jù)庫不能寫的問題應(yīng)該何解決詳細(xì)辦法說明。
    發(fā)表于 10-14 17:46 ?10次下載

    FPGA經(jīng)常有哪些常見警告應(yīng)該何解

    本文檔的主要內(nèi)容詳細(xì)介紹的是FPGA經(jīng)常有哪些常見警告應(yīng)該何解決。
    發(fā)表于 10-14 16:00 ?9次下載
    FPGA經(jīng)常有哪些常見警告<b class='flag-5'>應(yīng)該</b>如<b class='flag-5'>何解</b>決

    使用FPGA經(jīng)常會碰到哪些問題應(yīng)該何解

    本文檔的主要內(nèi)容詳細(xì)介紹的是使用FPGA經(jīng)常會碰到哪些問題應(yīng)該何解決。
    發(fā)表于 10-30 16:54 ?14次下載
    使用FPGA經(jīng)常會<b class='flag-5'>碰到</b>哪些問題<b class='flag-5'>應(yīng)該</b>如<b class='flag-5'>何解</b>決

    MySQL磁盤滿了應(yīng)該何解

    本文檔的主要內(nèi)容詳細(xì)介紹的是MySQL磁盤滿了應(yīng)該何解決。
    發(fā)表于 12-26 10:25 ?2231次閱讀

    C代碼與javaScript函數(shù)的相互調(diào)用問題應(yīng)該何解

    本文檔的主要內(nèi)容詳細(xì)介紹的是C代碼與javaScript函數(shù)的相互調(diào)用問題應(yīng)該何解決。
    發(fā)表于 03-05 11:47 ?17次下載

    單片機初學(xué)者編程經(jīng)常會碰到的問題及處理辦法

    在剛開始接觸單片機學(xué)習(xí)的時候,尤其是C語言基礎(chǔ)比較薄弱的老鐵們,經(jīng)常會碰到很多比較低級的錯誤,程序編譯錯誤一大堆,但不知道如何解決!一、程序
    發(fā)表于 11-13 14:51 ?9次下載
    單片機初學(xué)者編程經(jīng)常會<b class='flag-5'>碰到</b>的問題及處理辦法

    何解內(nèi)存溢出

    ,有時候會自動關(guān)閉軟件,重啟電腦或者軟件后釋放掉一部分內(nèi)存又可以正常運行該軟件,而由系統(tǒng)配置、數(shù)據(jù)流、用戶代碼等原因而導(dǎo)致的內(nèi)存溢出錯誤,即使用戶重新執(zhí)行任務(wù)依然無法避免 其實很簡單,
    的頭像 發(fā)表于 09-25 10:54 ?1743次閱讀
    如<b class='flag-5'>何解</b>決<b class='flag-5'>內(nèi)存</b>溢出

    何解內(nèi)存碎片與內(nèi)存交換效率慢的問題

    空間組合起來,是不是解決了這個問題?同樣的,內(nèi)存交換的時候我們保證交換的數(shù)據(jù)小,是不是能提高內(nèi)存交換的效率? 這個辦法就是內(nèi)存分頁,分頁是把
    的頭像 發(fā)表于 10-09 16:57 ?1301次閱讀
    如<b class='flag-5'>何解</b>決<b class='flag-5'>內(nèi)存</b>碎片與<b class='flag-5'>內(nèi)存</b>交換效率慢的問題
    主站蜘蛛池模板: 免费看啪啪网站 | 天天综合色天天综合 | 韩国三级hd| 91精品国产色综合久久不卡蜜 | 四虎影视色费永久在线观看 | 在线观看国产精美视频 | 国产热| 国产三级在线看 | 高清视频免费 | 日本人的色道www免费一区 | sss华人在线play | 日韩免费在线视频 | 一色屋成人免费精品网站 | 久久综合九色综合97婷婷群聊 | 亚洲a网站 | 国产大片免费观看资源 | 2018天天拍拍拍免费视频 | bt天堂在线观看 | 午夜影院普通用户体验区 | 天堂va欧美ⅴa亚洲va一国产 | 不卡无毒免费毛片视频观看 | 天堂中文字幕在线 | 六月丁香深爱六月综合激情 | 国产主播在线看 | 九色精品在线 | 欧美三级免费网站 | 久久黄色毛片 | 天堂资源在线bt种子8 | 激情久久久久久久久久久 | 黄色一级片视频 | 男女爱爱视频免费 | 久久青草91免费观看 | 国产精品成人一区二区 | 五月婷婷色 | 视频三区| 黄色免费片 | 黄色大片在线视频 | 亚洲婷婷国产精品电影人久久 | 色噜噜狠狠狠综合曰曰曰 | www.天天干 | 1024国产基地永久免费 |