在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

什么是高維數據_高維數據如何定義

PoisonApple ? 來源:網絡整理 ? 2018-02-12 14:31 ? 次閱讀

高維數據的概念其實不難,簡單的說就是多維數據的意思。平時我們經常接觸的是一維數據或者可以寫成表形式的二維數據,高維數據也可以類推,不過維數較高的時候,直觀表示很難。

目前高維數據挖掘是研究重點,

這是它的特點:

高維數據挖掘是基于高維度的一種數據挖掘,它和傳統的數據挖掘最主要的區別在于它的高維度。目前高維數據挖掘已成為數據挖掘的重點和難點。隨著技術的進步使得數據收集變得越來越容易,導致數據庫規模越來越大、復雜性越來越高,如各種類型的貿易交易數據、Web 文檔、基因表達數據、文檔詞頻數據、用戶評分數據、WEB使用數據及多媒體數據等,它們的維度(屬性)通常可以達到成百上千維,甚至更高。

由于高維數據存在的普遍性,使得對高維數據挖掘的研究有著非常重要的意義。但由于“維災”的影響,也使得高維數據挖掘變得異常地困難,必須采用一些特殊的手段進行處理。 隨著數據維數的升高,高維索引結構的性能迅速下降,在低維空間中,我們經常采用歐式距離作為數據之間的相似性度量,但在高維空間中很多情況下這種相似性的概念不復存在,這就給高維數據挖掘帶來了很嚴峻的考驗,一方面引起基于索引結構的數據挖掘算法的性能下降,另一方面很多基于全空間距離函數的挖掘方法也會失效。解決的方法可以有以下幾種:可以通過降維將數據從高維降到低維,然后用低維數據的處理辦法進行處理;對算法效率下降問題可以通過設計更為有效的索引結構、采用增量算法及并行算法等來提高算法的性能;對失效的問題通過重新定義使其獲得新生。

高維數據挖掘是基于高維度的一種數據挖掘,它和傳統的數據挖掘最主要的區別在于它的高維度。目前高維數據挖掘已成為數據挖掘的重點和難點。隨著技術的進步使得數據收集變得越來越容易,導致數據庫規模越來越大、復雜性越來越高,如各種類型的貿易交易數據、Web 文檔、基因表達數據、文檔詞頻數據、用戶評分數據、WEB使用數據及多媒體數據等,它們的維度(屬性)通常可以達到成百上千維,甚至更高。

由于高維數據存在的普遍性,使得對高維數據挖掘的研究有著非常重要的意義。但由于“維災”的影響,也使得高維數據挖掘變得異常地困難,必須采用一些特殊的手段進行處理。 隨著數據維數的升高,高維索引結構的性能迅速下降,在低維空間中,我們經常采用歐式距離作為數據之間的相似性度量,但在高維空間中很多情況下這種相似性的概念不復存在,這就給高維數據挖掘帶來了很嚴峻的考驗,一方面引起基于索引結構的數據挖掘算法的性能下降,另一方面很多基于全空間距離函數的挖掘方法也會失效。解決的方法可以有以下幾種:可以通過降維將數據從高維降到低維,然后用低維數據的處理辦法進行處理;對算法效率下降問題可以通過設計更為有效的索引結構、采用增量算法及并行算法等來提高算法的性能;對失效的問題通過重新定義使其獲得新生。

高維數據處理

PCA

非監督

利用協方差矩陣尋找投射函數ω使得投射到低維空間后的最大離散(方差)使用拉格朗日解不等式

根據求得的特征值進行特征向量的選擇

一般求信息率90%以上的特征向量集

對于N遠大于D的數據,使用SVD(奇異值)進行求解

先進行一次自乘降維再進行訓練

LDA

監督性

尋求使得類內方差最小并且類間差異性最大的投射空間

SOM

聚類方法

- 取差異性對周圍范圍的鄰居進行更新

MDS

非監督降維

注重數據的相對距離(關系),有利于流型數據的降維和可視化

但對原數據整體結構破壞嚴重

三個基本步驟:

計算stress

更新投射函數

檢查disparity

ReliefF

ReliefF處理多分類的情況,Relief只能處理兩分類

用于對特征進行賦權,通過權值進行過濾

算法輸入: 數據集D, 包含c類樣本,子集采樣數m,權值閾值δ, kNN系數k算法步驟:

什么是高維數據_高維數據如何定義

LLE和ISOMAP

一些總結

高緯度數據建模的基本思想是尋找函數f(x):

f(x)將數據投射到一個低維的空間

在低維空間中數據的某些特征可以保持

方法的選擇:

注重降低維度并提高數據的可分析性則使用PCA,對于大量數據使用SVD

注重類間區分和類內區分,則使用LDA

注重數據的相互關聯,并且數據復雜不可分,則使用MDS

對于流形,使用LLE和IOSMAP

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7233

    瀏覽量

    90816
  • 數據挖掘
    +關注

    關注

    1

    文章

    406

    瀏覽量

    24578
  • 高維數據
    +關注

    關注

    1

    文章

    1

    瀏覽量

    1446
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    如何讓tSNE在大型、數據庫上實時進行可視化的詳細資料概述

    tSNE是目前最為流行的一種數據的算法。在大數據時代,數據不僅越來越多,而且變得越來越復
    的頭像 發表于 06-10 10:06 ?2.3w次閱讀

    labview里面實現矩陣

    新手剛接觸labview,打算用labview實現算法的通信部分,用matlab實現計算部分,但是在matlab程序中我使用了矩陣:三矩陣,但是labview只支持2-D array,請教labview里面有沒有實現
    發表于 10-05 10:23

    數據根據條件提取某幾行數據組成一數據

    有個二數組,假設有20行2列字符串數組,第一列的字符串都是不一樣的。現在提取其中幾行的第二列數據組成一數組。現在我用的方法是for加條件結構,但中間會有很多零。請問一下,哪里出錯了?
    發表于 03-16 17:13

    什么讓三掃描數據栩栩如生

    `什么讓三掃描數據栩栩如生1.應用需求描述利用三掃描儀掃描三數據,并貼上色彩,可以用將產品三
    發表于 08-02 10:18

    數據集中頻繁閉合模式的挖掘

    數據集對現有的數據挖掘算法提出了挑戰。該文把挖掘任務分解為挖掘頻繁長模式與短模式2 個子問題,提出一種在
    發表于 04-17 08:41 ?27次下載

    基于單元區域的數據聚類算法

    提出一種數據集合聚類算法(CAHD)。采用雙向搜索策略在指定的n維空間或其子空間上發現數據點密集的單元區域,采用逐位相與的方法為這些密集單元區域聚類。雙向搜索策略能
    發表于 04-22 09:55 ?14次下載

    基于相似性度量的聚類算法的研究

    針對數據相似度難以定義的問題,本文提出了一種新的數據
    發表于 01-27 13:31 ?5次下載

    小樣本分類問題中特征選擇研究綜述

    隨著生物信息學、基因表達譜微陣列、圖像識別等技術的發展,小樣本分類問題成為數據挖掘(包括機器學習、模式識別)中的一項挑戰性任務,容易引發數災難和過擬合問題。針對這個問題,特征選擇
    發表于 11-27 16:38 ?0次下載
    <b class='flag-5'>高</b><b class='flag-5'>維</b>小樣本分類問題中特征選擇研究綜述

    數據相似性連接查詢算法

    為了解決數據相似性連接查詢中存在的維度災難和計算代價高等問題,基于p一穩態分布,將數據
    發表于 12-15 17:13 ?0次下載

    如何使用FPGA實現光譜圖像奇異值分解降技術

    了解決光譜圖像數據量巨大、實時處理技術實現難的問題,提出了光譜圖像實時處理降技術。
    發表于 03-11 16:07 ?10次下載
    如何使用FPGA實現<b class='flag-5'>高</b>光譜圖像奇異值分解降<b class='flag-5'>維</b>技術

    數據挖掘的改進k近鄰分類算法綜述

    信息采集技術日益發展導致的、大規模教據,給據挖掘帶來了巨大挑戰,針對K近鄰分類算法在數據分類中存在效率低、時間成本
    發表于 05-08 13:57 ?0次下載

    針對大規模數據的最近鄰檢索方法

    本文針對大規模數據近鄰檢索中的瓶頸問題,提岀基于向量量化的一種檢索方法一簇內乘積量化樹方法。該方法運用向量量化和乘積量化的多層樹狀結構高效表征大規模
    發表于 05-10 16:45 ?3次下載

    可對海量數據進行有效的聚類分析算法

    隨著大數據時代的來臨,如何對海量數據進行有效的聚類分析并充分利用,已成為當下的熱門研究課題。傳統的聚類算法在處理
    發表于 05-28 16:26 ?0次下載

    可對海量數據進行有效的聚類分析算法

    隨著大數據時代的來臨,如何對海量數據進行有效的聚類分析并充分利用,已成為當下的熱門研究課題。傳統的聚類算法在處理
    發表于 05-28 16:26 ?3次下載

    基于稀疏數據的增量模糊聚類算法

    基于稀疏數據的增量模糊聚類算法
    發表于 06-25 15:49 ?10次下載
    主站蜘蛛池模板: 在线观看免费精品国产 | 成人免费看黄网站无遮挡 | 国产精品午夜在线观看 | www.色黄| 中国男女全黄大片一级 | 一级毛片免费在线观看网站 | 伊人久久成人 | 扒开双腿爽爽爽视频www | 视频在线观看网站 | 日本人69xxxxxxxx69 | 国产三a级日本三级日产三级 | 日本不卡在线观看 | 一区在线免费观看 | 美国三级网 | 亚洲国产婷婷香蕉久久久久久 | 久久精品国产精品亚洲红杏 | hs视频在线观看 | 狠狠干综合 | 日本欧美一区二区 | 日本精品高清一区二区2021 | 怡红院日本一道日本久久 | 亚洲国产成人久久午夜 | 91正在 播放| 亚洲网站一区 | 久久亚洲精品成人综合 | 久久婷婷国产一区二区三区 | 九九精品在线观看 | 日操夜干 | 国产全黄三级三级 | 成 黄 色 激 情视频网站 | 午夜欧美 | 成人综合网站 | 成人亚洲网站 | 成人一级网站 | 免费黄视频在线观看 | 欧美色图一区二区 | 欧美午夜大片 | 天天干天天爽天天射 | 日韩中文电影 | 777欧美午夜精品影院 | 四虎精品永久在线 |