剛剛獲悉,由騰訊云大數據團隊主導的Ozone 1.0.0版本在Apache Hadoop社區正式發布。據了解,經過2年多的社區持續開發和內部1000+節點的實際落地驗證,Ozone 1.0.0已經具備了在大規模生產環境下實際部署的能力。
Ozone 是Apache Hadoop社區推出的新一代分布式存儲系統,它的出現滿足了大量小文件的存儲問題,解決了Hadoop分布式文件系統在可擴展性上的缺陷。作為Hadoop生態圈的一款新的對象存儲系統,能夠支持百億甚至千億級文件規模的存儲。
騰訊云大數據團隊Ozone項目負責人陳怡表示,作為大數據領域的領導廠商,騰訊是國內一線互聯網公司中最早加入社區的,目前已經在Ozone項目上已經主導完成了集群網絡拓撲感知的開發,以及數據寫入Multi-Raft Pipeline功能的開發。同時,主導的StorageContainerManager(SCM) 高可用HA功能也正在開發中。
Ozone 架構圖
以集群網絡拓撲感知來說,在傳統的大數據構架下,有了網絡拓撲結構,計算引擎的調度器可以將任務調度到離數據最近的節點來獲取“數據的局部性”。即便是新興的計算存儲分離構架,同樣也需要集群網絡拓撲信息,來保證數據的故障容錯能力和高可用性。
陳怡進一步介紹說,在Ozone 的Alpha 發布后,騰訊內部的大數據平臺上線了Ozone生產集群,承接了一部分業務的數據存儲。隨著數據服務體量的增加,逐漸發現Ozone寫入性能顯現出了一定的波動和瓶頸。基于這個發現,騰訊Ozone項目組設計并開發了數據寫入Multi-Raft Pipeline功能,顯著的提升了Ozone的寫入吞吐量和性能。
此外,為了測試Ozone整體的穩定性和性能,作為部署應用的先鋒小隊,騰訊內部部署了一個1000個數據節點的集群。進行了長達幾個月的穩定性和壓力測試。期間團隊遇到并解決了各種OOM、節點Crash、性能低于預期等問題。經過全面的優化之后,單集群1000個節點現已能長時間穩定運行,并且所有的數據都校驗確認正確無誤。
除了1000個節點集群的測試,1.0.0版本還進行10億個元數據對象的測試和優化,進一步解決長期困擾HDFS的大量小文件問題。目前Ozone 1.0.0能夠輕松支持10億個10KB小對象的寫入,同時元數據節點內存使用不超過64GB。
為了確保Ozone和Hive、Spark、Impala等計算框架的無縫對接,Ozone 1.0.0進行了和Hive LLAP、Spark以及Impala的集成測試。TPC-DS的測試表明,在100GB和1TB兩種數據量大小下,Ozone總體比HDFS有3.5%的優勢。
經過不斷的測試和優化,升級后的Ozone 1.0.0在版本功能上有了質的跨越。除了支持 Hadoop Compatible FileSystem、Hadoop 2.x以及 Hadoop3.x環境,Ozone 1.0.0還兼容Hadoop生態的Kerberos認證體系,支持數據的用戶無感知加密存放和Ranger授權集成、GDPR “Right to Erasure”以及網絡構架感知。
未來,騰訊云大數據還將發揮自身技術優勢和積累,在Ozone的基礎上開發基于SCM的新一代高性能分布式文件系統,并持續推進Ozone在更多騰訊內外部業務的實踐落地,部署更大規模的生產集群。同時,進一步擁抱開源,深度參與Hadoop社區,提高Ozone的可靠性、穩定性和性能,將其打造成新一代大數據文件和對象混合存儲系統。
值得一提的是,騰訊大數據團隊除了在Ozone 項目上的貢獻之外,近年來在開源領域的貢獻正在逐步加速,目前已完成了大數據核心能力全開源。同時,還結合實際業務場景推動開源技術加速落地,通過技術實踐和創新持續回饋社區貢獻開源。在Apache基金會的大數據項目上,騰訊已經為主流的Hadoop、Spark、Flink等項目貢獻了大量的特性和patch。
責任編輯:gt
-
存儲
+關注
關注
13文章
4341瀏覽量
86033 -
互聯網
+關注
關注
54文章
11180瀏覽量
103595 -
大數據
+關注
關注
64文章
8903瀏覽量
137609
發布評論請先 登錄
相關推薦
浪潮信息推出基于新一代分布式存儲平臺AS13000G7的AIGC存儲解決方案
![浪潮信息推出基于<b class='flag-5'>新一代</b><b class='flag-5'>分布式</b><b class='flag-5'>存儲</b>平臺AS13000G7的AIGC<b class='flag-5'>存儲</b>解決方案](https://file1.elecfans.com/web2/M00/F6/A7/wKgZomaCjN-Aa5uAAABJhO1rf-c369.png)
浪潮信息發布AS13000G7-N系列分布式全閃存儲
為大模型專門優化 浪潮信息發布分布式全閃存儲AS13000G7-N系列
![為大模型專門優化 浪潮信息<b class='flag-5'>發布</b><b class='flag-5'>分布式</b>全閃<b class='flag-5'>存儲</b>AS13000G7-N系列](https://file1.elecfans.com//web2/M00/E3/EB/wKgZomY93LqAB0zmAACk7cG7-Us233.jpg)
兆芯攜手智云創新推出高性能NVMe企業級存儲系統
大數據時代的存儲革命:理解分布式存儲系統
分布式存儲與計算:大數據時代的解決方案
得瑞領新參編團體標準《高性能計算 分布式存儲系統技術要求》正式發布
![得瑞領新參編團體標準《高性能計算 <b class='flag-5'>分布式</b><b class='flag-5'>存儲系統</b>技術要求》正式<b class='flag-5'>發布</b>](https://file1.elecfans.com//web2/M00/C2/36/wKgZomXhNtiACyfwAADo81_CK9s860.png)
評論