91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

主流分布式存儲技術對比分析

jf_78858299 ? 來源:wt企業IT社區 ? 作者:wt企業IT社區 ? 2023-02-15 15:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導讀】 如今分布式存儲產品眾多令人眼花繚亂,如何選型?要根據其背后的核心架構來分析它本來的原貌,然后才能決定其是否適合我們的具體場景。

【作者】 趙海

1 引言

目前市面上各個廠家的分布式存儲產品五花八門,但是如果透過產品本身的包裝看到其背后的核心技術體系,基本上會分為兩種架構,一種是有中心架構的分布式文件系統架構,以GFS、HDFS為代表;另外一種是完全無中心的分布式存儲架構,以Ceph、Swift、GlusterFS為代表。對具體分布式存儲產品選型的時候,要根據其背后的核心架構來分析它本來的原貌,然后才能決定其是否適合我們的具體場景。

2 主流分布式存儲技術對比分析

2.1 GFS & HDFS

GFS和HDFS都是基于文件系統實現的分布式存儲系統;都是有中心的分布式架構 (圖2.1) ;通過對中心節點元數據的索引查詢得到數據地址空間,然后再去數據節點上查詢數據本身的機制來完成數據的讀寫;都是基于文件數據存儲場景設計的架構 ;都是適合順序寫入順序讀取,對隨機讀寫不友好。

圖片

圖2.1 中心化的分布式存儲架構

接下來,我們來看GFS和HDFS都有哪些具體特性,我們應該如何應用?

  1. GFS是一種適合大文件,尤其是GB級別的大文件存儲場景的分布式存儲系統。
  2. GFS非常適合對數據訪問延遲不敏感的搜索引擎服務。
  3. GFS是一種有中心節點的分布式架構,Master節點是單一的集中管理節點,既是高可用的瓶頸,也是可能出現性能問題的瓶頸。
  4. GFS可以通過緩存一部分Metadata到Client節點,減少Client與Master的交互。
  5. GFS的Master節點上的Operation log和Checkpoint文件需要通過復制方式保留多個副本,來保障元數據以及中心管理功能的高可用性。

相對于GFS來說,我們來看HDFS做了哪些區別?

  1. HDFS的默認最小存儲單元為128M,比GFS的64M更大。
  2. HDFS不支持文件并發寫,對于單個文件它僅允許有一個寫或者追加請求。
  3. HDFS從2.0版本之后支持兩個管理節點(NameNode),主備切換可以做到分鐘級別。
  4. HDFS 更適合單次寫多次讀的大文件流式讀取的場景。
  5. HDFS不支持對已寫文件的更新操作,僅支持對它的追加操作。

2.2 GlusterFS

GlusterFS雖然是基于文件系統的分布式存儲技術,但是它與GFS/HDFS有本質的區別,它是去中心化的無中心分布式架構(圖2.2);它是通過對文件全目錄的DHT算法計算得到相應的Brike地址,從而實現對數據的讀寫;它與Ceph/Swift的架構區別在于它沒有集中收集保存集群拓撲結構信息的存儲區,因此在做計算的時候,需要遍歷整個卷的Brike信息。

圖片

圖2.2 Gluster FS

接下來,我們來看GlusterFS都有哪些具體特性,我們應該如何應用?

  1. GlusterFS是采用無中心對稱式架構,沒有專用的元數據服務器,也就不存在元數據服務器瓶頸。元數據存在于文件的屬性和擴展屬性中 。
  2. GlusterFS可以提供Raid0、Raid1、Raid1+0等多種類型存儲卷類型。
  3. GlusterFS采用數據最終一致性算法,只要有一個副本寫完就可以Commit。
  4. GlusterFS默認會將文件切分為128KB的切片,然后分布于卷對應的所有Brike當中。所以從其設計初衷來看,更適合大文件并發的場景。
  5. GlusterFS 采用的DHT算法不具備良好的穩定性,一旦存儲節點發生增減變化,勢必影響卷下面所有Brike的數據進行再平衡操作,開銷比較大。
  6. Gluster FS文件 目錄利用擴展屬性記錄子卷的中brick的hash分布范圍,每個brick的范圍均不重疊。遍歷目錄時,需要獲取每個文件的屬性和擴展屬性進行聚合,當目錄文件 較多 時,遍歷 效率很差 。

2.3 Ceph & Swift

我們知道, 相對于文件系統的中心架構分布式存儲技術,Ceph&Swift都是去中心化的無中心分布式架構(圖2.3);他們底層都是對象存儲技術;他們都是通過對對象的哈希算法得到相應的Bucket&Node地址,從而實現對數據的讀寫 。

圖片

圖2.3 去中心化的分布式存儲架構

接下來,我們來看Ceph和Swift都有哪些具體特性,我們應該如何應用?

  1. Ceph是一種統一了三種接口的統一存儲平臺,上層應用支持Object、Block、File 。
  2. Ceph采用Crush算法完成數據分布計算,通過Tree的邏輯對象數據結構自然實現故障隔離副本位置計算,通過將Bucket內節點的組織結構,集群結構變化導致的數據遷移量最小。
  3. Ceph保持數據強一致性算法,數據的所有副本都寫入并返回才算寫事務的完成,寫的效率會差一些,所以更適合寫少讀多的場景。
  4. 對象保存的最小單元為4M,相比GFS&HDFS而言,適合一些小的非結構化數據存儲。

雖然底層都是對象存儲,相對于Ceph來說,Swift又有哪些獨特的特性呢?

  1. Swift只保障數據的最終一致性,寫完2個副本后即可Commit,這就導致讀操作需要進行副本的對比校驗,讀的效率相對較低。
  2. Swift采用一致性哈希算法完成數據分布計算,通過首次計算對象針對邏輯對象(Zone)的映射實現數據副本的故障隔離分布,然后通過哈希一致性算法完成對象在Bucket當中的分布計算,采用Ring環結構組織Bucket節點組織,數據分布不如Ceph均勻。
  3. Swift 需要借助Proxy節點完成對數據的訪問,不同于通過客戶端直接訪問數據節點,相對數據的訪問效率來講,比Ceph要差一些。

總結來看,由于Swift需要通過Proxy節點完成與數據節點的交互,雖然Proxy節點可以負載均衡,但是畢竟經歷了中間層,在并發量較大而且小文件操作量比較的場景下,Ceph的性能表現會優秀一些。 為了說明我們從原理層面的判斷,接下來借助ICCLAB&SPLAB的性能測試結果來說明。

表1 Ceph集群配置

[Node1 - MON] [Node2 - OSD] [Node2 - OSD]
[HDD1: OS] [HDD1: OS] [HDD1: OS]
[HDD2: not used] [HDD2: osd.0 - xfs] [HDD2: osd.2 - xfs]
[HDD3: not used] [HDD3: osd.1 - xfs] [HDD3: osd.3 - xfs]
[HDD4: not used] [HDD4: journal] [HDD4: journal]

表2 Swift集群配置

[Node1 - Proxy] [Node2 - Storage] [Node2 - Storage]
[HDD1: OS] [HDD1: OS] [HDD1: OS]
[HDD2: not used] [HDD2: dev1 - xfs] [HDD2: dev3 - xfs]
[HDD3: not used] [HDD3: dev2 - xfs] [HDD3: dev4 - xfs]
[HDD4: not used] [HDD4: not used] [HDD4: not used]

以上是測試本身對于Ceph和Swift的節點及物理對象配置信息,從表的對比,基本可以看出物理硬件配置都是相同的,只不過在Swift的配置當中還需要配置Container相關邏輯對象。

圖片

{x}count{y}kb,x表示Swift集群當中設置的Container數量,y表示進行壓力測試所用的數據大小。從圖中表現出來的性能趨勢分析:

  1. Container的數量越多,Swift的讀寫性能會相對差一些;
  2. 在4K-128K數據大小的范圍內,Ceph和Swift的讀性能表現都是最佳的;
  3. 在4K-64K數據大小范圍內,Ceph的讀性能幾乎是Swift的2-3倍,但是寫的性能相差不是非常大。

圖片

Ceph_{x}Swift{x},x表示并發數量。從圖中表現出來的性能趨勢分析:

  1. 對于并發讀操作,Ceph的表現上明顯優于Swift,無論是穩定性還是IOPS指標;
  2. 對于并發寫操作,Ceph的并發量越高其性能表現越接近Swift,并發量越少其性能表現會明顯遜色于Swift。
  3. 對于并發讀寫操作的性能穩定性上,Ceph遠勝于Swift。

3 結語

通過對主流分布式存儲技術的各項特性分析梳理之后,我們基本上可以得出以下若干結論:

  1. GFS/HDFS還是適合特定大文件應用的分布式文件存儲系統(搜索、大數據...);
  2. GlusterFS是可以代替NAS的通用分布式文件系統存儲技術,可配置性較強;
  3. Ceph是平衡各個維度之后相對比較寬容的統一分布式存儲技術;
  4. 分布式存儲技術終究不適合應用到熱點比較集中的關系型數據庫的存儲卷場景上。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 分布式存儲
    +關注

    關注

    4

    文章

    181

    瀏覽量

    19908
  • HDFS
    +關注

    關注

    1

    文章

    31

    瀏覽量

    9907
  • GFS
    GFS
    +關注

    關注

    0

    文章

    5

    瀏覽量

    2251
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    分布式發電技術與微型電網

    幾種分布式發電簡介2.分布式發電與配電網互聯問題3.微型電網技術4.分布式發電(電源)技術應用的障礙和瓶頸5.
    發表于 03-11 13:37

    主流CAN收發器性能對比分析哪個最好?

    主流CAN收發器性能對比分析哪個最好?
    發表于 05-20 06:14

    主流的三種RF方案及其優缺點對比分析

    主流的三種RF方案及其優缺點對比分析RF IC的主要性能是什么?
    發表于 05-25 06:34

    幾款主流的Python開發板對比分析哪個好?

    Python在國內逐漸崛起和被追捧的原因?用Python可以做什么?幾款主流的Python開發板對比分析哪個好?
    發表于 10-26 07:06

    7大主流單片機優缺點對比分析哪個好?

    7大主流單片機優缺點對比分析哪個好?
    發表于 11-02 08:27

    常見的分布式供電技術有哪些?

      分布式供電技術是指將發電設備建設在用戶或供電系統端,將發電與負荷直接相連,通過局部供電的方式滿足用戶的電力需求。其主要特點是將傳統的集中式供電方式改為分散供電方式,不僅既有大型電站向小型
    發表于 04-10 16:28

    實例分析分布式數據存儲協議對比

    關于一致性 為什么需要Paxos或Quorum算法?分布式系統實現數據存儲,是通過多份數據副本來保證可靠,假設部分節點訪問數據失敗,還有其他節點提供一致的數據返回給用戶。對數據存儲而言,怎樣保證副本
    發表于 09-30 11:06 ?0次下載
    實例<b class='flag-5'>分析</b><b class='flag-5'>分布式</b>數據<b class='flag-5'>存儲</b>協議<b class='flag-5'>對比</b>

    深度解讀分布式存儲技術分布式剪枝系統

    分布式文件系統存儲目標以非結構化數據為主,但在實際應用中,存在大量的結構化和半結構化的數據存儲需求。分布式鍵值系統是一種有別于我們所熟悉的分布式
    發表于 10-27 09:25 ?2042次閱讀

    什么是分布式存儲技術?有哪些應用?

    分布式存儲概念 與目前常見的集中式存儲技術不同,分布式存儲
    的頭像 發表于 11-17 09:26 ?2.4w次閱讀
    什么是<b class='flag-5'>分布式</b><b class='flag-5'>存儲</b><b class='flag-5'>技術</b>?有哪些應用?

    淺談分布式存儲的元數據服務設計

    一般來說,我們根據存儲的訪問接口以及應用場景,把分布式存儲分為三種類型,包括分布式存儲分布式
    發表于 05-31 07:36 ?5177次閱讀

    分布式存儲技術有哪些

    本視頻主要詳細介紹了分布式存儲技術有哪些,分別是元數據管理、系統彈性擴展技術存儲層級內的優化技術
    的頭像 發表于 01-04 16:39 ?1.7w次閱讀

    主流分布式存儲技術對比分析與應用

    隨著數字化轉型的深入,海量數據對存儲提出了新的要求。傳統存儲雖然有技術成熟、性能良好、可用性高等優點,但面對海量數據,其缺點也越來越明顯:如擴展性差、成本高等。為了克服上述缺點,滿足海量數據的
    發表于 07-13 15:52 ?3788次閱讀
    <b class='flag-5'>主流</b><b class='flag-5'>分布式</b><b class='flag-5'>存儲</b><b class='flag-5'>技術</b>的<b class='flag-5'>對比分析</b>與應用

    AFS,GFS ,QKFile主流分布式存儲文件系統

    主流的3種分布式存儲文件系統 存儲架構分兩種,一種是傳統存儲陣列架構,另一種就是本文將要重點介紹的分布式
    發表于 08-02 11:04 ?3881次閱讀

    盤點分布式存儲系統的主流框架

    整個大數據處理的體系,按我的理解可以分為兩個部分,一個是分布式存儲系統、另一個是分布式計算框架。分布式存儲系統
    發表于 08-06 09:07 ?2865次閱讀

    分布式存儲的7個特征

    什么是分布式存儲呢?如果一個存儲系統,不管是對象、塊、文件、kv、log、olap、oltp,只要對所管理的數據做了Partitioning&Replication,不管姿勢對不對,其實
    發表于 07-18 14:17 ?1453次閱讀
    主站蜘蛛池模板: 69日本xxxxxxxxx78| 在线视频亚洲色图 | 日本三级三级三级免费看 | 中文字幕精品一区二区2021年 | 黄色毛片儿 | 一级做a爱片久久毛片 | 久久99精品久久久久久久野外 | 亚洲爱爱网 | 91av在线免费观看 | 狠狠干夜夜爽 | 三级网站免费看 | 国产精品bdsm在线调教 | 午夜寂寞影视 | 性国产精品 | 四虎影院4hu | 亚洲国产色图 | 色播五月激情 | 久久婷婷是五月综合色狠狠 | 羞羞影院男女午夜爽爽影视 | 222网站高清免费观看 | 黄色网址你懂的 | 嘿嘿嘿视频在线观看 | 久久精品国波多野结衣 | 国内精品久久久久久影院老狼 | 国产一级做a爰大片免费久久 | 欧美日本一区 | 3344a毛片在线看 | 同性男男肉交短文 | 日日爱网址| 一级毛片黄色 | 伊人久久综合网站 | 亚洲国产精品热久久2022 | 色噜噜成人综合网站 | 婷婷六月丁香 | 狠狠色噜噜狠狠狠狠2018 | 天天爱天天干天天操 | 瑟瑟网站免费 | 狠狠色婷婷丁香综合久久韩国 | 色国产精品 | 欧美满足你的丝袜高跟ol | 狠狠色丁香九九婷婷综合五月 |