91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

您好,歡迎來電子發(fā)燒友網(wǎng)! ,新用戶?[免費(fèi)注冊(cè)]

您的位置:電子發(fā)燒友網(wǎng)>電子百科>存儲(chǔ)設(shè)備>SAN網(wǎng)絡(luò)存儲(chǔ)>

列存儲(chǔ) - 揭秘:RCFile高效存儲(chǔ)結(jié)構(gòu)

2011年05月03日 11:01 本站整理 作者:Spring 用戶評(píng)論(0
列存儲(chǔ)

  圖3顯示了在HDFS上按照列組存儲(chǔ)表格的例子。在這個(gè)例子中,列A和列B存儲(chǔ)在同一列組,而列C和列D分別存儲(chǔ)在單獨(dú)的列組。查詢時(shí)列存儲(chǔ)能夠避免讀不必要的列,并且壓縮一個(gè)列中的相似數(shù)據(jù)能夠達(dá)到較高的壓縮比。然而,由于元組重構(gòu)的較高開銷,它并不能提供基于Hadoop系統(tǒng)的快速查詢處理。列存儲(chǔ)不能保證同一記錄的所有域都存儲(chǔ)在同一集群節(jié)點(diǎn),例如圖2的例子中,記錄的4個(gè)域存儲(chǔ)在位于不同節(jié)點(diǎn)的3個(gè)HDFS塊中。因此,記錄的重構(gòu)將導(dǎo)致通過集群節(jié)點(diǎn)網(wǎng)絡(luò)的大量數(shù)據(jù)傳輸。盡管預(yù)先分組后,多個(gè)列在一起能夠減少開銷,但是對(duì)于高度動(dòng)態(tài)的負(fù)載模式,它并不具備很好的適應(yīng)性。除非所有列組根據(jù)可能的查詢預(yù)先創(chuàng)建,否則對(duì)于一個(gè)查詢需要一個(gè)不可預(yù)知的列組合,一個(gè)記錄的重構(gòu)或許需要2個(gè)或多個(gè)列組。再者由于多個(gè)組之間的列交疊,列組可能會(huì)創(chuàng)建多余的列數(shù)據(jù)存儲(chǔ),這導(dǎo)致存儲(chǔ)利用率的降低。

  

79_110429153503_1.jpg

?

  圖3 HDFS塊內(nèi)列存儲(chǔ)的例子

  PAX混合存儲(chǔ)

  PAX存儲(chǔ)模型(用于Data Morphing存儲(chǔ)技術(shù))使用混合存儲(chǔ)方式,目的在于提升CPU Cache性能。對(duì)于記錄中來自不同列的多個(gè)域,PAX將它們放在一個(gè)磁盤頁中。在每個(gè)磁盤頁中,PAX使用一個(gè)迷你頁來存儲(chǔ)屬于每個(gè)列的所有域,并使用一個(gè)頁頭來存儲(chǔ)迷你頁的指針。類似于行存儲(chǔ),PAX對(duì)多種動(dòng)態(tài)查詢有很強(qiáng)的適應(yīng)能力。然而,它并不能滿足大型分布式系統(tǒng)對(duì)于高存儲(chǔ)空間利用率和快速查詢處理的需求,原因在于:首先,PAX沒有數(shù)據(jù)壓縮的相關(guān)工作,這部分與Cache優(yōu)化關(guān)系不大,但對(duì)于大規(guī)模數(shù)據(jù)處理系統(tǒng)是非常關(guān)鍵的,它提供了列維度數(shù)據(jù)壓縮的可能性;其次,PAX不能提升I/O性能,因?yàn)樗荒芨淖儗?shí)際的頁內(nèi)容,該限制使得大規(guī)模數(shù)據(jù)掃描時(shí)不易實(shí)現(xiàn)快速查詢處理;再次,PAX用固定的頁作為數(shù)據(jù)組織的基本單位,按照這個(gè)大小,在海量數(shù)據(jù)處理系統(tǒng)中,PAX將不會(huì)有效存儲(chǔ)不同大小類型的數(shù)據(jù)域。本文介紹的是RCF i l e 數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)在Hadoop系統(tǒng)上的實(shí)現(xiàn)。該結(jié)構(gòu)強(qiáng)調(diào):第一,RCFile存儲(chǔ)的表是水平劃分的,分為多個(gè)行組, 每個(gè)行組再被垂直劃分, 以便每列單獨(dú)存儲(chǔ);第二,RCFile在每個(gè)行組中利用一個(gè)列維度的數(shù)據(jù)壓縮,并提供一種Lazy解壓(decompression)技術(shù)來在查詢執(zhí)行時(shí)避免不必要的列解壓;第三,RCFile支持彈性的行組大小,行組大小需要權(quán)衡數(shù)據(jù)壓縮性能和查詢性能兩方面。

  RCFile的設(shè)計(jì)與實(shí)現(xiàn)

  RCFile(Record Columnar File)存儲(chǔ)結(jié)構(gòu)遵循的是“先水平劃分,再垂直劃分”的設(shè)計(jì)理念,這個(gè)想法來源于PAX。它結(jié)合了行存儲(chǔ)和列存儲(chǔ)的優(yōu)點(diǎn):首先,RCFile保證同一行的數(shù)據(jù)位于同一節(jié)點(diǎn),因此元組重構(gòu)的開銷很低;其次,像列存儲(chǔ)一樣,RCFile能夠利用列維度的數(shù)據(jù)壓縮,并且能跳過不必要的列讀取。圖4是一個(gè)HDFS塊內(nèi)RCFile方式存儲(chǔ)的例子。

  

79_110429153552_1.jpg

?

  圖4 HDFS塊內(nèi)RCFile方式存儲(chǔ)的例子

  數(shù)據(jù)格式

  RCFile在HDFS分布式文件系統(tǒng)之上設(shè)計(jì)并實(shí)現(xiàn),如圖4所示,RCFile按照下面的數(shù)據(jù)格式來存儲(chǔ)一張表。

  RCFile基于HDFS架構(gòu),表格占用多個(gè)HDFS塊。

  每個(gè)HDFS塊中,RCFile以行組為基本單位來組織記錄。也就是說,存儲(chǔ)在一個(gè)HDFS塊中的所有記錄被劃分為多個(gè)行組。對(duì)于一張表,所有行組大小都相同。一個(gè)HDFS塊會(huì)有一個(gè)或多個(gè)行組。

  一個(gè)行組包括三個(gè)部分。第一部分是行組頭部的同步標(biāo)識(shí),主要用于分隔HDFS塊中的兩個(gè)連續(xù)行組;第二部分是行組的元數(shù)據(jù)頭部,用于存儲(chǔ)行組單元的信息,包括行組中的記錄數(shù)、每個(gè)列的字節(jié)數(shù)、列中每個(gè)域的字節(jié)數(shù);第三部分是表格數(shù)據(jù)段,即實(shí)際的列存儲(chǔ)數(shù)據(jù)。在該部分中,同一列的所有域順序存儲(chǔ)。從圖4可以看出,首先存儲(chǔ)了列A的所有域,然后存儲(chǔ)列B的所有域等。

  

非常好我支持^.^

(4) 100%

不好我反對(duì)

(0) 0%

( 發(fā)表人:Spring )

      發(fā)表評(píng)論

      用戶評(píng)論
      評(píng)價(jià):好評(píng)中評(píng)差評(píng)

      發(fā)表評(píng)論,獲取積分! 請(qǐng)遵守相關(guān)規(guī)定!

      ?
      主站蜘蛛池模板: 天天热天天干 | 国产亚洲精品久久午夜 | 亚洲乱码卡一卡二卡三 | 亚洲一区 在线播放 | 永久在线免费观看 | 97久久精品国产精品青草 | 久久天天躁狠狠躁夜夜躁综合 | 午夜影视在线视频观看免费 | 乱好看的的激情伦小说 | 成人免费看黄网站yyy456 | 午夜在线视频国产 | 一级久久久 | 激情五月婷婷网 | 男人在线网站 | 欧美大尺度aaa级毛片 | 久久免费看 | 国产日本在线观看 | 狠狠色噜狠狠狠狠色综合久 | 视频亚洲一区 | 亚洲精品美女久久久 | bt天堂在线www中文在线 | 国产成人综合网在线播放 | 正在播放亚洲一区 | 好大好紧好爽好湿润视频 | 亚洲人成电影综合网站色 | 欧美xxxx性疯狂bbbb | 欧美瑟瑟 | 欧美h视频 | 国产高清视频在线免费观看 | 黄色免费在线视频 | 福利视频一区二区 | 天堂网在线www最新版在线 | 久久青草国产精品一区 | 在线综合网 | 天天爽夜夜爽天天做夜夜做 | 国产深夜福利在线观看网站 | 国产精品资源在线观看网站 | 性生交大片免费一级 | 亚洲第一精品夜夜躁人人爽 | 欧美一级在线观看 | 99精品国产第一福利网站 |