在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于隨機分區的超快并行DBSCAN算法介紹

冬至配餃子 ? 來源:時空實驗室 ? 作者:CUST團隊-李文慧 ? 2022-08-02 18:14 ? 次閱讀

DBSCAN是一種基于密度的空間聚類算法。如在點p鄰域范圍內的點達到一定數量則點p稱為核心點,若點q在p的鄰域范圍內,則p直接密度可達q,且p、q屬于同一密集區域。由這種關系連接的最大數據點集形成一個簇。DBSCAN算法有檢測任意形狀的簇、不需要提前知道檢測簇的數量等優點。隨著近年來大規模并行化的熱潮,又出現了許多并行DBSCAN算法。大多數并行DBSCAN算法中,為并行地發現直接密度可達關系,相鄰的點被分配到相同的數據分區中進行并行處理,以方便計算相鄰點的密度。但是,這種數據分區方案會導致一些問題,如分割成本大、子區域重疊、數據分區之間的負載不平衡等,其中負載問題在分布不均勻的數據集中尤為體現。

為了解決這些問題,本文提出了一種新的并行DBSCAN算法,隨機分區DBSCAN,簡稱RP-DBSCAN,它使用偽隨機劃分和兩級單元格字典。偽隨機劃分是一種基于單元格的數據劃分方案,它可以隨機采樣小的單元格,而不是點本身。無論數據如何分布,它都可以實現負載平衡,同時保持DBSCAN所需的數據連續性。兩級單元格字典是整個數據集的一個高度凝煉的摘要,來表示每個隨機分區。該算法能夠實現同時找到每個數據分區的局部聚類,然后將這些局部聚類合并得到全局聚類。

一.偽隨機劃分

本文定義d維空間中的一個單元格是一個對角線長度為ε 的d維超立方體,ε 是一個表示鄰域半徑的參數。如果至少有一個數據點位于一個密集區域內,則可以保證該單元格中的所有數據點都屬于同一簇。這大大簡化了之后的聚類合并過程。在進行數據分區時,我們隨機采樣單元格,而不是采樣數據點,因此稱為偽隨機劃分。然后,將相同顏色的單元格及其內部的數據點劃分為同一個分區。由于ε 遠小于整個空間的長度,這種劃分也可以實現真正的隨機劃分的效果。圖 1 說明了偽隨機分區的思想,不同顏色代表不同分區。

poYBAGLo96uAYrieAABXgo6-Kks728.png

圖1 偽隨機劃分

二.兩級單元格字典

兩級單元格字典是整個數據集的一個摘要。本質上它是一個兩級的樹。第一級的節點對應單元格,第二級的節點對應子單元格,其邊長為單元格的h分之一,其中h由用戶給出以指定近似度。每個節點編碼每個(子)單元格的密度及其位置。密度是其內部的點數,而位置可以用它們所屬單元內的子單元的順序來表示,故只用d(h? 1)位。(d是維度,h是字典級數)如圖 2,h = 2,d= 2,只需兩位來表示子單元格位置(00,01,10,11)。

pYYBAGLo9-SAL7HlAACMb2C3O7M436.png

圖2 兩級單元格字典的構建

因此,可以得出兩級單元格字典總大小為

poYBAGLo9_aAHXeCAABA7NfnqPQ155.png

如果數據集非常大,由于內存的限制,有可能無法立即加載整個兩級單元格字典,因此把字典劃分成較小的子字典,它由根節點集合的一個子集以及與它們連接的葉節點組成。

三. 算法實現的三個階段

1. 數據分區

通過偽隨機劃分對整個數據集進行分區,并構建兩級單元格字典,為并行處理做好準備。向并行系統中的每個工作者發送一個分區和對應的兩級單元格字典。如圖3,整個空間被劃分為諸多單元格,其中沒有為空區域創建單元格。將黃色和綠色單元格劃分到兩個不同的分區P1和P2中。然后為每個分區生成一個兩級單元格字典。

pYYBAGLo-AyAZPmDAABr0Xs66Po037.png

圖3 數據分區

2. 單元格圖的構造

通過(ε, ρ)區域查詢的方式區分單元格是否為核心單元格,構造單元格圖時將排除非核心單元格。如圖3中的Cnc1-Cnc5判斷為非核的,它們在圖4中將被排除。然后,從每個分區的每個核心單元搜索其所有完全或部分直接可達的單元格來構建一個單元圖。這些單獨的關系可以在單元格級別上進行聚合,從而生成一個單元格圖。單元格圖的頂點是單元格,邊是單元格之間的可達性關系。總的來說,一個單元格圖表示從一個給定的分區中獲得的局部聚類。

pYYBAGLo-B6AYjD6AAB59PRKtRs912.png

圖4 單元格圖構造

(ε, ρ)區域查詢:

如圖5所示,若點p與子單元格中心scn的距離小于ε ,那么,就將這個子單元格加入到點p的鄰居集合當中。當點p的鄰居點數大于等于設定的參數minPts,就把包含p的單元格標記為核心單元格。

poYBAGLo-D-AE6__AABp0mwIOXk495.png

圖5 (ε,ρ)區域查詢

3. 單元格圖的合并

這一部分主要包括漸進式圖合并和點標記兩個過程。首先,結合從每個工作者返回的對應每個分區的單元格圖,確認每條邊直接可達性關系,以合并成全局單元格圖。之后,根據合并后的圖對聚類進行擴展,并根據最終的聚類結果來標記所有的點。整個過程就是由局部聚類產生全局聚類。例如在圖 6 中,單元格圖簡單合并后要進行邊類型檢測,即判斷是完全邊(深色實線),部分邊(實線箭頭)還是未知邊(虛線箭頭),還要進行減邊操作,根據樹的結構去除冗余邊,最終得到一個樹式的全局單元格圖。然后,圖 7 中進行點標記,圖4中位于P1和P2左下角的單元格在圖 7 中形成了一個C1簇,將單元格其中的點標記為同一個顏色,即為最終聚類的結果。

pYYBAGLo-FSAc8E1AABea8qfc-M330.png

圖6 漸進式圖合并

poYBAGLo-GWAamDyAABXZ_erRbQ964.png

圖7 點標記

四. 總結

本文提出采用隨機劃分策略并行運行DBSCAN。為此,提出了一種基于單元格的數據分割策略,即偽隨機劃分,它具有區域劃分策略和隨機劃分策略的優點。為了能夠在隨機分割上執行區域查詢,本文設計了兩級單元格字典,它是整個數據集的一個高度凝煉的摘要。將它們放在一起,開發了一個高效的并行DBSCAN算法RP-DBSCAN。本文使用GeoLife,Cosmo50,OpenStreetMap等大規模數據集進行實驗,將RP-DBSCAN與SPARK-DBSCAN,ESP-DBSCAN等其它6種算法進行效率和精確度的對比。結果顯示,RP-DBSCAN更快,更精準,更高效且可擴展性強。RP-DBSCAN顯著地超過了最先進的并行DBSCAN算法高達180倍。此外,只有RP-DBSCAN可以處理最大的362GB數據集,而其他算法則不能,有力地驗證了其性能的優越性。本文的研究工作顯著地提高了DBSCAN算法在大數據時代的可用性。


審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼
    +關注

    關注

    6

    文章

    967

    瀏覽量

    55574
  • DBSCAN
    +關注

    關注

    0

    文章

    7

    瀏覽量

    10474
  • DBSCAN算法
    +關注

    關注

    0

    文章

    3

    瀏覽量

    1295
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    中科采象邀您共同研討高速數據采集在與X射線領域應用

    2025年與X射線科學國際研討會時間:2025年5月9日-12日地點:上海科技大學會議中心簡介:2025年與X射線科學國際研討會將聚焦阿秒物理極限探索、自由電子激光技術革新及量
    的頭像 發表于 05-09 14:05 ?149次閱讀
    中科采象邀您共同研討高速數據采集在<b class='flag-5'>超</b><b class='flag-5'>快</b>與X射線領域應用

    MDD恢復二極管的耐壓與電流選型:如何確保可靠性?

    在高頻開關電源、功率變換器和新能源應用中,恢復二極管因其短反向恢復時間(trr)和低開關損耗而被廣泛采用。然而,在選擇MDD恢復二極管時,耐壓(VRRM)和電流(IF,IFSM
    的頭像 發表于 04-09 10:21 ?318次閱讀
    MDD<b class='flag-5'>超</b><b class='flag-5'>快</b>恢復二極管的耐壓與電流選型:如何確保可靠性?

    大族激光薄片激光器產品介紹

    激光是激光技術領域的重要研究方向之一。目前激光作為先進制造業中理想加工利器,在半導體晶圓加工、太陽能電池劃片、新能源電池極片切割等眾多智能制造領域發揮著至關重要作用。在技術創新
    的頭像 發表于 03-06 10:00 ?661次閱讀
    大族激光薄片<b class='flag-5'>超</b><b class='flag-5'>快</b>激光器產品<b class='flag-5'>介紹</b>

    磁盤分區工具parted的使用方法

    傳統的MBR分區表格式,僅支持最大四個主分區,而且不可以格式化2TB以上的磁盤,因此,大磁盤更適合使用parted工具進行GPT的分區格式。
    的頭像 發表于 03-03 09:39 ?824次閱讀

    摩爾線程支持DeepSeek開源通信庫DeepEP和并行算法DualPipe

    DeepSeek開源周第四日,摩爾線程宣布已成功支持DeepSeek開源通信庫DeepEP和并行算法DualPipe,并發布相關開源代碼倉庫:MT-DeepEP和MT-DualPipe。
    的頭像 發表于 02-28 15:58 ?456次閱讀

    中偉視界:AI防爆型攝像機有哪些常用算法算法解析與并行運行能力介紹

    AI防爆型攝像機通過多種智能算法,如目標檢測、人體識別、行為識別等,具備了對監控場景的深度解析與高效管理能力。它能實時監測潛在危險并預警,在無網無電環境中可獨立運行,充分展示了其強大的并行算法能力,成為安防和工業領域的重要工具。
    的頭像 發表于 02-27 10:41 ?491次閱讀
    中偉視界:AI防爆型攝像機有哪些常用<b class='flag-5'>算法</b>之<b class='flag-5'>算法</b>解析與<b class='flag-5'>并行</b>運行能力<b class='flag-5'>介紹</b>

    xgboost的并行計算原理

    在大數據時代,機器學習算法需要處理的數據量日益增長。為了提高數據處理的效率,許多算法都開始支持并行計算。XGBoost作為一種高效的梯度提升樹算法,其
    的頭像 發表于 01-19 11:17 ?922次閱讀

    小鵬大眾將攜手合力打造中國最大的充網絡

    小鵬汽車和大眾汽車集團(中國)宣布簽署諒解備忘錄(MOU),將合力為客戶打造中國最大的充網絡,雙方相互將開放各自專有的、行業領先的充網絡。 小鵬汽車和大眾汽車集團(中國)的客戶
    的頭像 發表于 01-06 09:46 ?1107次閱讀

    迅為RK3568開發板傳統分區和定制擴展分區鏡像對比

    適應硬件的動態變化。 (2)啟動速度:直接加載設備樹和內核,減少了啟動過程中的延遲。 (3)基礎 OTA 更新:支持遠程更新,但不支持增量更新,更新需重構鏡像。 (4)存儲效率低:由于設計傳統,分區
    發表于 11-19 10:50

    Linux磁盤分區擴容方法

    linux分區常用命令:fdisk,修改MBR分區表,MBR格式,被修改的分區大小最大為2T。
    的頭像 發表于 10-23 11:46 ?979次閱讀
    Linux磁盤<b class='flag-5'>分區</b>擴容方法

    有獎問卷:隨機抽取 30 名用戶送出充數據線

    非常重要。 該問卷大約只需 5 分鐘即可完成。 我們將隨機抽取 30 名用戶送出充數據線。 十分感謝您能幫助我們改善您在 TI 的用戶體驗。 TI 用戶體驗設計團隊
    發表于 10-09 08:08

    使用FAL分區管理與easyflash變量管理

    1.FAL組件1.1什么是FALFAL(FlashAbstractionLayer)Flash抽象層,是對Flash及基于Flash的分區進行管理、操作的抽象層,對上層統一了Flash及分區操作
    的頭像 發表于 10-01 08:10 ?1748次閱讀
    使用FAL<b class='flag-5'>分區</b>管理與easyflash變量管理

    合科泰恢復二極管ES1JL產品介紹

    恢復二極管具有開關特性好、反向恢復時間超短等特點,在開關電源、PWM脈寬調制器、變頻器等中作為開關和整流器件。本期,合科泰給大家介紹一款
    的頭像 發表于 08-05 10:02 ?829次閱讀
    合科泰<b class='flag-5'>超</b><b class='flag-5'>快</b>恢復二極管ES1JL產品<b class='flag-5'>介紹</b>

    剛剛,國內光纖激光器獲重要進展

    來源:激光行業觀察 編輯:感知芯視界 Link 華南師范大學光電科學與工程學院研究員羅智和教授徐文成團隊在國家自然科學基金、廣東省自然科學基金等項目的資助下,在孤子光纖激光器的研究方面取得重要
    的頭像 發表于 08-05 09:12 ?510次閱讀

    如何采用分區架構提升車輛的簡易性

    ? 各種車輛功能推陳出新,傳統的域架構 (Domain Architecture)也面臨挑戰。本文將介紹交通運輸行業如何采用分區架構 (Zonal Architecture)來提升車輛的簡易性、效率
    的頭像 發表于 07-11 15:59 ?993次閱讀
    主站蜘蛛池模板: 天堂一区二区在线观看 | 久久久久久噜噜噜久久久精品 | 91pao强力打造免费高清 | 日韩一级免费视频 | 老色批影院 | 四虎地址8848最新章节 | 五月国产综合视频在线观看 | 国产va免费精品高清在线 | 香蕉视频vip| 在线视频午夜 | 色婷亚洲| 成人免费淫片95视频观看网站 | 亚洲一卡2卡4卡5卡6卡在线99 | 色玖玖| 日本在线网址 | 特级中国aaa毛片 | 美女被免费网站在线视频九色 | 午夜在线观看免费观看大全 | 久久久噜噜噜久久久 | 日日干夜夜爽 | 国产精品久久久久久久久ktv | 亚洲福利视频网址 | 手机在线视频观看 | 久久婷婷影院 | 91新地址| 亚洲视频在线一区二区三区 | 热久在线 | 国产一区在线播放 | 中文字幕日本一区波多野不卡 | 2022年永久免费观看 | 亚洲香蕉久久 | 一区视频免费观看 | 两性色午夜视频免费网 | 韩国三级床戏合集 | 日韩特黄特色大片免费视频 | 欧美一级黄视频 | 成人久久网 | 奇米99| 亚洲欧美在线视频免费 | 天堂免费在线视频 | 日韩艹 |