基于Hadoop的產品大數據分布式存儲優化

摘要：

摘要: 研究產品相關大數據資源組織存儲與檢索查詢技術，提出在Hadoop平臺基礎上對產品大數據資源進行分塊存儲。基于MapReduce并行架構模型，提出多副本一致性Hash數據存儲算法，算法充分考慮了數據的相關性和時空屬性，并優化了Hadoop平臺的數據劃分策略和數據塊規格調整。通過對數據的優化存儲布局，采用多源并行連接檢索方法和多通道數據融合特征提取技術實現產品大數據信息檢索，提高了數據資源管理效率。實驗表明和標準Hadoop方案比較，多源并行連接數據檢索的執行時間為其31.9%。

1. 引言

計算機的發展和網絡通信技術日趨成熟，數據規模的增長在給人們帶來便利生活的同時也讓從大量數據中汲取有用信息變得困難，如何從中檢索到有用數據是目前需要面對的重要問題 [1] [2] [3]。其中有產品相關的數據資源包含生產車間監測視頻圖像及產品相關數據及文檔、物料跟蹤數據、加工數據、生產流通數據等，其存在著數據資源規模大，種類多，來源不同且分散分布的特點 [4] [5] [6]。傳統的分布式數據庫受數據庫存儲能力限制，存在著架構存儲能力有限，對數據的管理與發布支持相對較弱，管理效率低的問題 [7] [8] [9]。

目前，針對傳統分布式數據庫存在的問題，龐書杰 [10] 提出了一種基于Hash的關聯規則并行優化算法(HP-AR)，通過對數據庫統計頻繁項集部分的并行處理結合輔助Hash表簡化挖掘過程滿足了面對大規模數據集時挖掘隱藏關聯規則的需求。潘俊輝等學者 [11] 針對基本算法Apriori的改進，提出了一種基于壓縮矩陣的優化算法，該算法使用MapReduce計算模型對數據庫進行分塊，之后對數據庫的關聯規則的挖掘結果進行合并，得出頻繁項集。Aisha Siddiqa等學者 [12] 為了評估不同存儲架構的性能，使用Brewer的CAP定理比較和分析了現有方法，提出了一種定義明確的大數據存儲技術分類法。

本文針對目前存在的數據管理效率低、檢索速度慢等問題基于Hadoop平臺，結合分布式、分層結構的存儲優化和并行處理等技術，提出了一種多副本一致性Hash數據存儲算法，將數據集中的數據按照相關性以及時空屬性進行分塊處理，提高了數據處理的效率。同時在Hadoop MapReduce并行框架的基礎上，設計了一種多源并行連接數據檢索算法，實驗結果表明，同傳統Hadoop方案相比，多源并行連接數據檢索算法的運行速度明顯加快。

2. 產品大數據存儲優化研究

2.1. 數據存儲及數據分布策略

基于數據相關性的多副本一致性Hash數據存儲算法(Multi-copy Consistency Hash Algorithm Based on Data Correlation, CMCHA)，進行Hadoop的數據布局優化，優化技術路線：盡可能集中存儲相關聯的數據，數據檢索和分析時在映射階段完成主要工作，使由映射端到約減端數據通信負載消耗降低，系統整體數據檢索和分析性能得到提高。每種跟蹤過程數據的類型和格式不同，可將數據的具體采集位置和時間作為數據檢索和分析時的關鍵字。

通常Hadoop平臺將數據存儲為3個副本，一份在本地，一份在同機架內不同節點上，一份在不同機架的某一節點上。為減少整體數據傳輸帶寬消耗和數據讀取時間延時，HDFS讓讀取應用程序讀取距離它最近的副本數據。

存儲算法考慮如下3方面的相關性：數據采集地點相關性、數據采集時間相關性和自定義數據相關性。利用一致性Hash算法，按照采集地點編號對數據副本1進行Hash映射;按照采集時間戳對數據副本2進行Hash映射;相關系數作為跟蹤過程數據的一個重要屬性，按照自定義相關系數對數據副本3進行Hash映射，實現不同的數據查詢和數據分析需求。根據應用系統需要自定義數據相關性，給相關系數賦值，算法設計過程中構建配置流程如圖1所示的Hash環。

Figure 1. CMCHA flow

圖1. CMCHA算法流程

步驟1：通過配置文件預定義跟蹤過程數據的相關系數以及冗余的副本數量，定義冗余副本數量為3;

步驟2：計算集群中每個數據節點的Hash值，配置到0~232的Hash環區間上;

步驟3：基于跟蹤過程數據的時間及空間屬性和相關系數計算數據的Hash值。根據數據來源位置ID，在云平臺下對第1份副本數據①，計算Hash值1，映射到Hash環上;對第2份數據②，根據跟蹤過程數據的采集時間戳，計算Hash值2，并映射到Hash環上。對第3份數據③，根據數據的相關系數計算其Hash值3，并映射到Hash環上。可配置大于3的副本數量，交替按照這3種方式計算其Hash值i，并依次映射到Hash環上，滿足更高的數據存儲可靠性;

步驟4：確定數據的存儲位置，根據數據Hash值和數據節點Hash值在CMCHA算法配置流程圖中按順時針方向將數據映射到距離其最近的節點(如將數據①映射到節點A上);

步驟5：如果節點空間不足或在映射過程出現異常，則跳過該節點尋找下一個存放節點。

2.2. 數據存儲優化研究

按照所屬大文件，所有分塊數據存儲為一個文件，分塊數據基于Hadoop分布式存儲調度策略，被分散存放在不同的分布式存儲節點上，每個分塊數據設置相應的存儲副本率，為便于數據檢索該存儲策略另外定義和維護分塊數據的索引鍵名。

每個大文件包含的每個分塊數據通過< key, value >記錄形式存儲到HDFS中，記為< Blk-ID, Data >，數據類型為< int, byte[] >，Blk-ID表示數據分塊順序號，Data表示數據分塊的二進制數據，通過給定的Blk-ID可得到對應數據分塊的二進制字節數據。大文件數據分塊存儲方法如圖2。

HDFS的設計目標是存儲大文件，其數據塊規格默認為64 MB，遠大于512B的物理磁盤的塊大小。HDFS文件訪問時間主要包括系統尋址時間和數據傳輸時間，文件傳輸效率 ηeffectηeffect 計算公式如下：

Figure 2. Block storage process of large file

圖2. 大文件分塊存儲流程

其中， tttt 表示數據傳輸時間， tt=Sblockvtt=Sblockv; tsts 表示系統尋址時間; SblockSblock 表示數據塊規格; vv 表示數據傳輸速度。

從(1)可看出 ηeffectηeffect 小于1。通常在數據分布和索引方法確定情況下， tsts 和 vv 是確定的值，要提高 ηeffectηeffect 應增加 SblockSblock。在HDFS中，通過dfs.block.size參數設置數據塊 SblockSblock 的規格。如果規格設置過大會降低系統負載均衡性，在調整數據塊的規格時應綜合考慮進入系統的數據規模、數據傳輸率和負載均衡性。

3. 數據多源并行連接檢索

產品數據跟蹤管理系統對在線監測的多個監測點以及相關參數進行綜合檢索，查詢條件是監測位置ID、采樣時間或位置和時間聯合條件等。檢索內容包括位置信息(數據采集點設備名稱、設備運行時間、采集位置等)、環境信息(生產車間的溫度、濕度、氣壓等)、生產數據(捕撈時間、捕撈批次、數量等)等多源數據，需要將不同來源的數據進行數據連接。如在產品加工過程質量控制參數的綜合檢索過程中需要連接3個數據文件：1) 加工過程數據文件(表1)，其中采樣批次即為產品批次碼;2) 質量控制參數檢測數據文件(表2);3) 檢測環境文件(表3)，其中檢測位置編碼代表“車間–工段–班組–工位”。按時間進行的綜合查詢生成在2020年3月14日9:00~9:20的綜合檢測結果數據，形成質量檢測數據列表，包括位置信息和環境信息。此過程需要將3個數據文件按照查詢條件進行連接，形成滿足綜合查詢要求的查詢結果數據列表，如表4。

位置ID	采集時間	采樣批次
DL082	2020-03-14 9:08	202003140103100
DL083	2020-03-14 9:18	202003140103300
DL081	2020-03-14 9:10	202003140103200

Table 1. Processing data file

表1. 加工過程數據文件

位置	采集時間	采樣批次	采樣信息
DL083	2020-03-14 9:10	202003140103200	31.9/7.58/50.2
DL081	2020-03-14 9:00	202003140103300	32.5/7.55/50.5
DL082	2020-03-14 9:08	202003140103100	32.2/7.57/50.4
DL082	2020-03-17 9:00	202003140103100	11.7/10.1/62.2

Table 2. Quality inspection data file

表2. 質量參數檢測數據文件

位置ID	檢測位置	采集時間	溫度℃	濕度
DL081	ZZ01-I-02-B	2017-03-14 8:00	39	65
DL082	ZZ01-I-02-A1	2017-03-14 8:10	38	63
DL083	ZZ02-II-01-A1	2017-03-14 8:11	38	59

Table 3. Detection position data file

表3. 檢測環境數據文件

位置ID	檢測位置	采集時間	溫度/℃	濕度	采樣批次	采樣信息
DL081	ZZ01-A-026-B	2017-03-14 9:00	39	65	201703140103300	32.5/7.55/50.5
DL082	ZZ01-A-026-A1	2017-03-14 9:08	38	63	201703140103100	32.2/7.57/50.4
DL083	ZZ02-B-017-A1	2017-03-14 9:10	38	59	201703140103200	31.9/7.58/50.2

Table 4. Results of date join

表4. 數據連接結果

按照數據檢索需求和數據格式描述，設計并行過濾連接檢索算法，算法在映射端執行，設計的主要依據是為節省網絡流量傳輸，提高檢索效率，過濾和連接在映射過程進行，避免要執行的檢索操作在約減過程進行。為使數據連接時所需數據聚集到同一個數據節點，采用基于數據相關性的多副本一致性Hash算法進行數據分布。算法流程：1) 根據檢索條件過濾掉不符合檢索條件的數據;2) 根據連接檢索需求，確定數據連接的組鍵(group key)：檢測位置ID、時間戳或相關系數;3) 用數據文件名作為標簽，標記各數據源的各個記錄;4) 將相同屬性值的記錄根據連接組鍵劃分到一組，按照檢索條件進行數據連接。

數據進行優化存儲分布之后進入數據連接映射階段，此階段在本地節點進行相應任務操作，結果傳輸到HDFS，數據的優化分布及映射端連接模式流程如圖3所示。

Figure 3. Optimized data distribution and map data join mode

圖3. 數據的優化分布及映射端數據連接模式

4. 算例驗證

4.1. Hadoop平臺建設

采用10節點即10臺服務器建設Hadoop集群平臺，指定集群中一個節點為NameNode，指定另一臺不同的節點為JobTracker，均是主控節點。余下節點為客戶端，作為DataNode也作為TaskTracker。操作系統采用Windows;部署：虛擬機軟件Vmvare;Vmvare安裝好一臺Windows虛擬機后，導出或者克隆出另外兩臺虛擬機，連接為橋連，確保虛擬機和主機ip地址在同一個ip段內，可以相互通信。設置數據塊規格為64 MB，對應4個CPU內核，各計算節點都分配4個任務網格，其中3個為映射計算任務網格，1個為約減計算任務網格。對集群的整體數據傳輸性能進行基準測試。

4.2. 算法性能驗證

為測試數據存儲分布優化后多源連接檢索查詢算法的性能，將前述針對產品大數據連接算法和基于標準Hadoop平臺的連接算法進行分析比對驗證。分析使用實驗室研發的“產品大數據追溯系統”中采集存儲的數據集，如表5。

文件名	副本數	文件大小	占用空間	記錄數
加工過程	3	627 kB	1881 kB	1910
質量檢測	3	370 GB	1110 GB	13.62 M
檢測環境	3	215 MB	645 MB	4175

Table 5. Real data set for join query

表5. 算法驗證真實數據集

1) 多源并行連接檢索運行時間變化趨勢

選擇3種典型連接查詢條件進行基于CMCHA多源并行連接檢索查詢算法的運行測試，記錄每種條件下算法的運行時間。查詢結構化語言SQL語句的描述如表6。

類型	條件	查詢語句
全連接	不設置	Select位置ID，檢測位置，采集時間，溫度，濕度，采樣批次，采樣信息 From加工過程，質量參數檢測，檢測環境 Where加工過程，位置ID = 質量參數檢測，位置ID = 檢測環境，位置ID
位置條件連接	檢測工位	Select位置ID，檢測位置，采集時間，溫度，濕度，采樣批次，采樣信息 From加工過程，質量參數檢測，檢測環境 Where加工過程，位置ID = 質量參數檢測，位置ID = 檢測環境，位置ID and位置ID between [ID1, IDn]
時間條件連接	時間	Select位置ID，檢測位置，采集時間，溫度，濕度，采樣批次，采樣信息 From加工過程，質量參數檢測，檢測環境 Where加工過程，位置ID = 質量參數檢測，位置ID = 檢測環境，位置ID and采集時間between [T1, Tn]

Table 6. SQL description of join query

表6. 連接查詢實驗類SQL描述

實驗過程中在數據集中選取不同規模的子集，從10萬條記錄遞增至數據全集(13.76 M條)，基于CMCHA的多數據源并行連接檢索算法運行時間變化趨勢及運行時間與數據規模的關系如圖4。可以看出，應用了CMCHA數據存儲算法優化后，數據檢索運行時間隨著數據規模的增長而增長平緩。由于對數據存儲布局采用CMCHA進行了優化，且在映射過程中完成綜合檢索查詢操作，網絡通信量有效降低，保證了查詢性能的穩定性。

Figure 4. Execution time and variation trend of data join

圖4. 多源連接檢索運行時間變化趨勢

2) 數據連接檢索運行時間比較

使用基于標準Hadoop平臺的約減端連接檢索處理算法和基于CMCHA的多源并行數據連接檢索算法，針對選取的13.76 M條樣本數據全集，分別執行全連接、以檢測位置為查詢條件和以時間為查詢條件的連接檢索操作，運行時間比較結果如圖5，后一算法的運行時間分別為前一算法運行時間的32.9%、32.5%和32.1%。CMCHA算法在運行時間上遠小于標準Hadoop算法，而且隨著事務條數的增加，雖然CMCHA算法運行時間也在增加，但是兩者的差距也在逐漸變大，當數據量逐漸越大時，CMCHA算法的優勢也越來越明顯。數據存儲優化布局后提高了多數據源相關數據聚集性，映射任務中的數據連接在本地就能完成，減少了映射端到約減端的數據通信，也降低了約減任務的啟動對性能的影響，所以算法的運行效率明顯提高。

Figure 5. Execution time comparison of data join based on 2 algorithms

圖5. 兩種算法多源連接運行時間比較

5. 結論

針對產品大數據資源，基于Hadoop平臺，采用分布式、分層結構的存儲優化和并行處理等技術，提出了多副本一致性Hash數據存儲算法，按照產品主屬性、相關系數和時間戳，在數據集群中按照規則聚集具有相關性的數據，提高數據處理效率。基于該算法設計了Hadoop平臺下多源并行連接數據檢索算法，測試證明通過數據的存儲分布優化，算例的運行速度明顯加快，和標準Hadoop方案比較，多源并行連接數據檢索的執行時間為其31.9%。

審核編輯：湯梓紅

閱讀全文

視頻(71807) 視頻(71807)
存儲(84567) 存儲(84567)
大數據(136504) 大數據(136504)

大數據時代的存儲革命：理解分布式存儲系統

管理的效率極低。因此，分布式存儲系統應運而生。 分布式存儲就是將數據存儲在眾多的服務器或網絡節點上，而不是集中在單個位置。這種方式的好處包括：方便擴容、數據冗余備份提高容錯性、避免單點故障影響整個系統。而分布式計算則是將一個大任

2024-03-07 15:40:21

109

曙光存儲推出ParaStor分布式全閃存儲

曙光存儲推出ParaStor分布式全閃存儲，攜業內首創技術XDS，以訓練加速、穩定性強、性價比高的獨特價值，全維度涵蓋網絡、計算和平臺，為千行百業的AI大模型開發者提供存儲解決方案。

2024-03-01 11:30:19

137

分布式放大器 MMA023AA-放大器-分布式 DC-30 GHz，中等功率

分布式放大器MMA023AA-放大器-分布式DC-30 GHz，中等功率分布式放大器MMA023AA-放大器-分布式DC-30 GHz，中等功率狀態：生產中。文檔產品特點

2024-02-29 13:23:38

Hadoop是什么?其核心由兩大部分組成,分別是什么?

了分布式存儲和計算的方式，能夠快速有效地處理大量數據，并具備良好的擴展性和容錯性。 Hadoop的核心由兩大部分組成，分別是Hadoop分布式文件系統（Hadoop Distributed File

2024-02-05 10:52:01

301

保障數據完整性：分布式無紙化交互系統的關鍵特性

來百度APP暢享高清圖片保障數據完整性是分布式無紙化交互系統的關鍵特性之一。在分布式無紙化交互系統中，數據的傳輸、存儲和處理都需要得到保障，以確保數據的完整性和準確性。 ? 首先，分布式無紙化交互

2024-01-15 14:28:00

101

分布式節點服務器是什么?

部署在不同的服務器上進行處理和存儲，以實現負載均衡和容錯處理。這種架構模式旨在提高系統的可擴展性、可靠性和性能表現，以滿足大規模數據處理、復雜任務處理等需求。 分布式節點服務器的實現方式有多種，其中最常用的

2024-01-12 15:04:02

283

【Vsan數據恢復】Vsan分布式存儲虛擬磁盤文件丟失的數據恢復案例

一套vsan分布式存儲架構有數臺服務器節點，該vsan分布式存儲架構配置了固態硬盤和機械硬盤，固態硬盤作為緩存盤使用，機械硬盤作為容量盤使用。機房供電異常導致服務器異常關機，工作人員重啟服務器后發現vsan分布式存儲邏輯架構出現故障，虛擬磁盤文件丟失，虛擬機組件異常。

2024-01-03 16:39:02

236

分布式IO工業自動化數據采集與分析的核心

工業自動化生產的效率。在傳統的工業自動化生產中，設備的控制和監測通常采用集中式控制方式，這種方式存在著設備連接復雜、數據傳輸速度慢、故障率高和擴展性差等問題。而分布式IO采用分布式控制方式，將設備按照

2023-12-28 14:47:02

擴展模塊驅動分布式I/O在新能源鋰電池自動化生產中的發展

材料進行切邊、折邊、點膠等操作，使其對接部分更加嚴密,不會造成鋰電池內部液體的泄露。 分布式I/O模塊可以采集磁性開關及光電信號并通過輸出模塊控制電磁閥從而控制氣缸動作，來完成電池的雙折邊成型工藝

2023-12-28 11:20:31

分布式鎖的三種實現方式

鎖，下面將分別介紹三種常見的實現方式。一、基于數據庫實現的分布式鎖在分布式系統中，數據庫是最常用的共享資源之一。因此，可以通過數據庫的特性來實現分布式鎖。常見的方式是創建一個專門用于鎖定的數據表，并在這個表

2023-12-28 10:01:24

255

一圖讀懂《分布式融合存儲研究報告（2023）》

轉自：存儲產業技術創新戰略聯盟 2023年11月30日，存儲產業技術創新戰略聯盟、中國電子技術標準化研究院聯合發布《分布式融合存儲研究報告（2023）》，詳細闡釋分布式融合存儲概念和技術要求

2023-12-21 18:05:01

270

鴻蒙原生應用開發——分布式數據對象

01、什么是分布式數據對象在可信組網環境下，多個相互組網認證的設備將各自創建的對象加入同一個 sessionId，使得加入的多個數據對象之間可以同步數據，也就是說，當某一數據對象屬性發生

2023-12-08 10:01:21

分布式系統硬件資源池原理和接入實踐

的使用習慣；手機導航接續到車機后，車機的 GPS 信號可以共享給手機，結合手機 GPS 信號提供更高精度的定位數據；可以看到，在智慧出行場景中，可以通過分布式硬件資源池結合手機和車機的優勢硬件，為用戶

2023-12-06 10:02:45

如何實現Redis分布式鎖

Redis是一個開源的內存數據存儲系統，可用于高速讀寫操作。在分布式系統中，為了保證數據的一致性和避免競態條件，常常需要使用分布式鎖來對共享資源進行加鎖操作。Redis提供了一種簡單而強大的分布式

2023-12-04 11:24:12

327

redis分布式鎖三個方法

Redis是一種高性能的分布式緩存和鍵值存儲系統，它提供了一種可靠的分布式鎖解決方案。在分布式系統中，由于多個節點之間的并發訪問，需要使用分布式鎖來保證數據的一致性和避免沖突。本文將介紹Redis

2023-12-04 11:22:43

428

redis分布式鎖的應用場景有哪些

Redis分布式鎖是一種基于Redis實現的分布式鎖機制，可以在分布式環境下確保資源的獨占性，避免并發訪問時的數據爭用問題。下面將詳細介紹Redis分布式鎖的應用場景。 分布式系統并發控制在分布式

2023-12-04 11:21:25

382

zookeeper分布式原理

Zookeeper是一個開源的分布式協調服務，可以用于構建高可用、高性能的分布式系統。它提供了一個簡單且高效的層次命名空間，可以用來存儲配置信息、狀態信息、命名服務等。Zookeeper的設計目標

2023-12-03 16:33:23

346

星辰天合發布全新一代全閃分布式存儲，英特爾? QAT及英特爾? DSA助其提供非凡性能

）”及全閃統一存儲“星飛 XINFINI 9000”。英特爾與星辰天合聯合創新，將第四代英特爾至強可擴展處理器與星辰天合全新一代星飛全閃分布式存儲系統強強整合，為用戶提供了非凡的性能。 XSKY 星辰天合 CEO 胥昕表示，隨著AI、大數據等各種應用的全面爆發，業界對

2023-11-24 20:00:03

377

分布式數據恢復-hbase+hive分布式存儲誤刪除文件的數據恢復方案

hbase+hive分布式存儲數據恢復環境： 16臺某品牌R730XD服務器節點，每臺物理服務器節點上有數臺虛擬機，虛擬機上配置的分布式，上層部署hbase數據庫+hive數據

2023-11-24 15:55:19

185

#分布式電源助力慶陽打造“西部數谷”#明德源能 #分布式電源DPS

分布式電源

jf_64111305發布于 2023-11-17 17:28:27

HarmonyOS分布式文件系統開發指導

監聽、通過軟總線建立鏈路，并根據分布式的設備安全等級執行不同的數據流轉策略。 ● hmdfs：實現在內核的網絡文件系統，包括緩存管理、文件訪問、元數據管理和沖突管理等。 ○ 緩存管理 ■ 設備分布式組網

2023-11-14 17:14:57

面對設備制造商打造的分布式設備數據處理中心有什么功能

。數之能打造的分布式設備數據處理中心（物聯網數據中臺），支持數據匯聚、數據解析、數據分析、處理及存儲、業務分發，以及提供各種豐富的物聯網中間件，為客戶快速管理設

2023-11-09 14:00:27

《分布式融合存儲研究報告（2023）》即將發布 | 釋放數據潛能，筑基數字經濟

隨著云計算、大數據、人工智能、高性能和多模計算等技術的發展，以文本、圖片和視頻為代表的非結構化數據呈現出爆發式增長。分布式融合存儲以其強大的橫向擴展能力、近線性的性能增長能力、多種協議的兼容能力以及

2023-11-03 18:35:01

306

tldb提供分布式鎖使用方法

前言：分布式鎖是分布式系統中一個極為重要的工具。目前有多種分布式鎖的設計方案，比如借助 redis，mq，數據庫，zookeeper 等第三方服務系統來設計分布式鎖。tldb 提供的分布式鎖，主要是要簡化這個設計的過程，提供一個簡潔可靠，類似使用程序中對象鎖的方式來獲取分布式鎖。

2023-11-02 14:44:47

388

什么是分布式鎖 Redis的五種分布式鎖方案

本地加鎖的方式在分布式的場景下不適用，所以本文我們來探討下如何引入分布式鎖解決本地鎖的問題。本篇所有代碼和業務基于我的開源項目 PassJava。

2023-10-23 11:35:46

196

分布式文件系統的設計原理是什么？

什么是分布式文件系統？分布式文件系統(DFS)是一種計算機文件系統，使用戶能夠從多個分布式位置存儲和訪問數據。它是在分布式環境中的不同計算機之間共享信息的一種方式。通過使用分布式文件系統，用戶可以

2023-10-17 17:35:02

378

高效管理海量數據！憶聯 SSD 為分布式塊存儲提供極致性能

近年來，為滿足大規模的存儲應用需求，分布式存儲成為云環境下存儲底座構建的重要選擇，相較于傳統集中式存儲方案的可靠性、安全性以及數據利用率較低，分布式存儲具有易擴展、高性能、高性價比、支持分級存儲

2023-10-13 15:55:01

301

數據庫如何實現分布式鎖

1. 前言 分布式應用中，有時我們需要一個方法在同一時間只能被一個線程執行。此時我們有可能會使用到分布式鎖。 分布式鎖需要具備以下特征：互斥性同一時刻鎖只能被一個線程持有。超時釋放超時釋放

2023-10-08 16:12:52

383

深入理解redis分布式鎖

系統不同進程共同訪問共享資源的一種鎖的實現。如果不同的系統或同一個系統的不同主機之間共享了某個臨界資源，往往需要互斥來防止彼此干擾，以保證一致性。業界流行的分布式鎖實現，一般有這3種方式：基于數據庫實現的分布式鎖基于Redis實現的分布式

2023-10-08 14:13:27

488

基于ZigBee的分布式井蓋監控系統

隨著我國現代經濟發展水平的不斷提高，城市井蓋數目逐漸增加。由于較多井蓋被盜，致使路面形成陷阱，危害到過往車輛和行人安全。本文提出了一種基于ＺｉｇＢｅｅ無線網絡的智能安全監控系統，解決分布式布控困難

2023-09-18 08:46:50

輸電線路分布式故障診斷裝置

LMS12000分布式故障診斷系統的體系結構不同于傳統行波定位系統，其核心部件——故障監測終端安裝于輸電線路導線上，可以近距離地捕捉故障瞬間的行波信號。本產品采用了分布式行波測量技術，使故障定位

2023-09-14 15:11:33

分布式無紙化交互系統的實現原理

維訊維分布式無紙化交互系統的實現原理主要是基于IP分布式網絡，將分布式系統、無紙化系統、會議智慧屏、顯示大屏幕等有機融合，實現數據的分布式傳輸和交互操作。具體實現過程如下：系統基于IP分布式網絡

2023-09-04 16:11:39

320

什么是訊維分布式輸入節點和分布式輸出節點

訊維分布式輸入節點和分布式輸出節點是訊維分布式節點系統中的兩種重要組件。 分布式輸入節點是訊維分布式節點系統中的一部分，主要負責采集音視頻數據。它可以從不同的音視頻源中采集數據，如攝像機、麥克風

2023-08-28 11:47:42

1907

什么是分布式節點

，如客戶端和服務器。客戶端通常負責發送請求和接收響應，而服務器則負責處理請求并返回響應。節點之間還可以進行對等通信，以實現更高級別的協同工作。訊維分布式節點在許多領域中都有應用，如云計算、物聯網、大數據、區塊

2023-08-28 11:39:06

2153

華為宣布CANTIAN引擎開源并發布分布式存儲全閃新品

了2022年TOP N問題的改進成果，并深入探討AI存儲、分布式數據庫、容器等話題。第三屆華為數據存儲用戶精英論壇成功召開回顧華為數據存儲的發展歷程，華為數據存儲產品線總裁周躍峰誠摯感謝全球客戶對華為一如既往的支持和幫助：“中國數據存儲產業面

2023-08-25 18:45:07

431

OpenHarmony 分布式硬件關鍵技術

本文轉載自 OpenHarmony TSC 官方《峰會回顧第8期 | OpenHarmony 分布式硬件關鍵技術》演講嘉賓 | 李剛回顧整理 | 廖濤排版校對 | 李萍萍嘉賓簡介李剛

2023-08-24 17:25:23

8K無損壓縮分布式系統，開創分布式新時代！

近年來，分布式產品可謂遍地開花，很多廠商絡繹不絕的在AV over IP化下足功夫，行業各類分布式產品層出不窮，當大家還以4K產品引以為傲的時候，近日訊維率先推出最新一代分布式產品：8K無損壓縮

2023-08-24 10:28:07

430

分布式系統及大數據分析系統成功用于臨沂城市管理局指揮中心

，訊維全新DISTR?4K分布式可視化系統及DAT?大數據可視化分析系統作為此次數字城管系統升級的核心部分。本次應用標志著訊維分布式系列產品及大數據可視化產品在智慧城市建設與升級方面，發揮了重要作用。數字化城市管理信息系統，是利用計算

2023-08-24 10:22:52

285

分布式節點的性能優勢

隨著大數據、云計算和人工智能等技術的快速發展，分布式節點在處理海量數據和復雜任務方面具有顯著優勢。訊維分布式節點作為一種新興的技術架構，以其高性能、高可用性和低能耗等特性，成為了許多企業和機構的首選

2023-08-23 15:32:19

1003

分布式電站數據采集：實時監控、優化運行與智能管理

采集與監控至關重要，如何實現數據采集與運行優化，成為企業的新需求。 分布式電站通常指規模較小、地理位置分散、可獨立運行的發電系統，如太陽風、風能等，通過多種設備的數據采集與監控，包括傳感器、水電表、PLC等，用于監測電

2023-08-14 15:39:48

352

分布式系統及大數據分析系統成功應用于臨沂某城市管理局指揮中心！

，訊維全新DISTR?4K分布式可視化系統及DAT?大數據可視化分析系統作為此次數字城管系統升級的核心部分。本次應用標志著訊維分布式系列產品及大數據可視化產品在智慧城市建設與升級方面，發揮了重要作用。 ? 數字化城市管理信息系統，是利用計

2023-08-07 10:12:31

352

訊維分布式可視化控制系統維的發展趨勢

的自動化程度和智能化水平。 2.大數據應用：隨著數據量的不斷增長，分布式可視化控制系統將越來越重視大數據的應用，可以對海量的數據進行實時處理和分析，提供更加準確、全面的信息支持。 3.云端化：隨著云計算技術的發展，分布式可

2023-07-31 09:42:03

262

訊維分布式可視化控制系統的發展趨勢

2023-07-28 10:09:57

287

分布式存儲的7個特征

什么是分布式存儲呢？如果一個存儲系統，不管是對象、塊、文件、kv、log、olap、oltp，只要對所管理的數據做了Partitioning&Replication，不管姿勢對不對，其實

2023-07-18 14:17:26

566

分布式數據庫|數據庫數據類型

分布式數據庫是一種存儲在不同物理位置的數據庫。與單個數據庫系統的并行系統不同，分布式數據庫系統由不共享物理組件的松耦合站組成。分布式數據庫具有可擴展性好、容錯性強等優點，廣泛應用于大型互聯網企業

2023-07-17 13:33:09

328

Hadoop的優化與發展(3)#大數據分析

大數據分析

學習硬聲知識發布于 2023-07-11 14:40:41

Hadoop的優化與發展(2)#大數據分析

大數據分析

學習硬聲知識發布于 2023-07-11 14:40:14

Hadoop的優化與發展(1)#大數據分析

大數據分析

學習硬聲知識發布于 2023-07-11 14:39:49

大規模分布式存儲的挑戰(2)#大數據處理

大數據

未來加油dz發布于 2023-07-05 11:23:45

大規模分布式存儲的挑戰(1)#大數據處理

大數據

未來加油dz發布于 2023-07-05 11:23:24

初步認識大數據對分布式存儲系統的需求(2)#大數據處理

大數據

未來加油dz發布于 2023-07-05 11:16:27

初步認識大數據對分布式存儲系統的需求(1)#大數據處理

大數據

未來加油dz發布于 2023-07-05 11:16:04

分布式存儲系統重要功能設計要點剖析(2)#大數據處理

大數據

未來加油dz發布于 2023-07-05 11:09:24

分布式存儲系統重要功能設計要點剖析(1)#大數據處理

大數據

未來加油dz發布于 2023-07-05 11:09:03

分布式存儲系統舉例(2)#大數據處理

大數據

未來加油dz發布于 2023-07-05 11:08:42

分布式存儲系統舉例(1)#大數據處理

大數據

未來加油dz發布于 2023-07-05 11:07:59

分布式事務 (2)#大數據處理

大數據

未來加油dz發布于 2023-07-05 11:06:16

分布式事務 (1)#大數據處理

大數據

未來加油dz發布于 2023-07-05 11:05:41

具體說明大數據對分布式存儲系統的需求(2)#大數據處理

大數據

未來加油dz發布于 2023-07-05 11:02:47

具體說明大數據對分布式存儲系統的需求(1)#大數據處理

大數據

未來加油dz發布于 2023-07-05 11:02:18

分布式存儲架構面臨的挑戰

? 從云和互聯網的業務場景來看，其存儲域主要采用基于服務器部署分布式存儲服務的融合方式，它面臨如下挑戰： 1．數據保存周期與服務器更新周期不匹配。大數據、人工智能等新興業務催生出海量數據，大量數據

2023-07-05 10:44:08

849

通用表表達式(2)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 23:02:05

通用表表達式(1)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 23:01:32

過程語言(2)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 23:00:52

過程語言(1)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 23:00:11

課程介紹(2)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:59:24

課程介紹(1)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:58:59

#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:58:32

聚合函數(1)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:57:57

窗口函數(2)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:57:17

窗口函數(1)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:55:17

流數據的基本概念(2)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:54:29

流數據的基本概念(1)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:54:07

數據聯邦介紹(2)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:53:46

數據聯邦介紹(1)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:53:01

數據安全概述(2)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:52:28

數據安全概述(1)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:52:05

數據處理新技術與展望(2)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:51:38

數據處理新技術與展望(1)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:50:47

嵌套查詢(2)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:50:06

嵌套查詢(1)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:49:29

多維數據分析(2)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:48:46

多維數據分析(1)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:48:11

Kafka和Greenplum的集成 - 本章小結(2)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:47:36

Kafka和Greenplum的集成 - 本章小結(1)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:47:13

Greenplum數據庫權限控制(2)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:46:50

Greenplum數據庫權限控制(1)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:46:25

Apache Kafka簡介(2)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:45:56

Apache Kafka簡介(1)#分布式數據

分布式數據

未來加油dz發布于 2023-07-03 22:45:31

分布式存儲的分類和典型應用場景

分布式對象存儲：指各存儲節點由標識符、數據和元數據的對象數據構成。其中標識符在該存儲系統中唯一，用于區分不同存儲區域；元數據將提取數據特征，便于快速檢索。

2023-06-12 14:38:13

2591

如何使用分布式存儲系統促進AI模型訓練

這凸顯了分布式存儲在人工智能（AI）領域的重要性。JuiceFS 是一個開源、高性能的分布式文件系統，為這個問題提供了解決方案。

2023-06-12 09:28:38

312

融合互通，浪潮分布式融合存儲AS13000加速海量數據處理

智慧時代，數據量激增且非結構化數據的占比逐漸增大，數據類型愈發復雜，處理數據的方式更加多樣化，傳統單一存儲難以滿足市場需求。基于此，浪潮推出了非結構化數據融合互通新平臺分布式融合存儲AS13000。

2023-06-07 10:57:56

359

分布式故障定位裝置——FH-900F武漢風河智能科技

分布式故障定位裝置——FH-900F武漢風河智能科技電力輸電線路經常面臨各種自然因素導致的跳閘事故，而這些事故不僅損害設施，更重要的是給電力系統帶來了安全隱患。解決這一問題，快速準確的定位故障點

2023-06-06 13:59:10

如何使用Jmeter進行分布式測試；檢索日志？

使用 Jmeter 進行分布式測試；檢索日志

2023-05-10 13:00:46

大數據的基本處理流程大數據的作用和意義

大數據的基本處理流程通常包括以下幾個步驟：　　1. 數據采集：從各種數據源采集數據，可能包括傳感器數據、日志數據、電子郵件、社交媒體數據等。　　2. 數據存儲：將采集到的數據存儲到分布式文件系統或數據倉庫中，可能需要根據不同的數據類型和存儲需求進行不同的數據格式轉換和存儲方案選擇。

2023-04-16 16:21:18

6269

大數據平臺有哪些大數據技術應用有哪些

是其中一些類型的大數據平臺：　　1. 分布式計算平臺：Apache Hadoop、Apache Spark、Apache Flink等，提供分布式存儲和計算能力，支持海量數據處理和分析

2023-04-16 16:14:00

9835

大數據的4v特征有哪些大數據技術包括哪些技術

的增長速度非常快，而且數據的來源和種類也更加多樣化。　　2. Velocity（處理速度）：大數據通常需要快速處理和分析，這就需要使用高效的分布式系統和并行算法來快速處理數據。如Hadoop、Spark等分布式處理框架可以有效地解決大數據的處理速度問題。

2023-04-16 16:08:38

13294

含分布式發電的微電網中儲能裝置容量優化配置

負荷削峰填谷的作用。提出了應用上下限約束法以及加權移動平均控制法，以滿足微電網的接入要求為前提，以最小儲能配置容量為目標，對混合儲能裝置進行容量優化配置的方法。仿真結果表明，所提方法不僅能夠使分布式發電出力滿足

2023-04-14 10:23:10

常見的分布式供電技術有哪些？

電源供電，同時也是小型分布式電源向更小型負荷供電的過程，數據體量小、接口標準清晰。分布式供電技術主要有以下優點：　　1. 提高電力供應的可靠性：分布式電源設備距離用電設備較近，電力傳輸損失減小，可以

2023-04-10 16:28:30

已全部加載完成

搜索歷史

基于Hadoop的產品大數據分布式存儲優化

評論