在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

無監督學習的數據集變換和聚類

汽車玩家 ? 來源:CSDN ? 作者:zzc_zhuyu ? 2020-05-04 18:28 ? 次閱讀

1、類型

主要有兩種類型:數據集變換和聚類。

無監督變換:

降維:接受數據的高維表示,找到新的表示方法,以用較少的特征概括重要特性。

找到“構成”數據的各個組成部分。例如,文本的主題提取。

聚類:

將數據劃分成不同的組,每組包含相似的物項

2、降維

1. 主成分分析(PCA)

一種旋轉數據集的方法,旋轉后的特征在統計上不相關。旋轉后,通常根據新特征對數據集的重要性來選擇它的一個子集。

主成分

方差最大的方向為“成分1”,這是包含包含最多信息的方向。之后找到與“成分1”正交的包含信息最多的方向,得到“成分2”……利用這一過程找到的方向成為主成分。通常,主成分的個數與原始特征相同。

在PCA找到的額旋轉表示中,坐標軸之間 不相關。

應用

高維數據集可視化

特征提取:找到一種數據表示,比給定的原始表示更適合于分析。

對PCA模型的另一種理解:僅適用一些成分對原始數據進行重建。

2. 非負矩陣分解(NMF)

在NMF中,目標是分量和系數均為非負。只能應用于每個特征都是非負的數據,因為非負分量的非負求和不可能得到負值。

與PCA不同,減少分量個數不僅會刪除一些方向,而且會創建一組完全不同的分量。

NMF的分量沒有按任何特定方法排序,所有分量的地位平等。

NMF使用了隨機初始化,根據隨機種子的不同可能會產生不同的結果。

3. t-SNE與流形學習

流形學習算法 :主要用于可視化,允許進行更復雜的映射。只能變換用于訓練的數據。

t-SNE:找到數據的一個二維表示,盡可能保持數據點之間的距離。試圖保存那些點比較靠近的信息。

3、聚類

聚類:將數據集劃分成組的任務,這些組叫做簇。

1. K均值聚類

原理

試圖找到代表數據特定區域的簇中心

算法過程

① 將每個數據點分配給最近的簇中心

② 將每個簇中心設置為所分配的所有數據點的平均值,如果簇的分配不再變化,結束;反之,執行步驟1

注:聚類算法與分類算法類似,但不存在真實的標簽,標簽本身沒有先驗意義。

注意

每個簇僅由其中心決定,這意味著每個簇都是凸型的,因此,只能找到相對簡單的形狀。

k均值假設所有簇在某種程度上有相同的直徑,它總是將簇之間的邊界剛好畫在簇中心的中間位置

k均值假設所有方向對每個簇同等重要

特點

優點:

容易理解和實現

運行速度相對較快

擴展到大型數據集比較容易

缺點:

依賴于隨機初始化

對簇形狀的假設的約束性較強

要求制定所要尋找到簇的個數

2. 凝聚聚類

算法首先聲明每個點是自己的簇,然后合并兩個最相似的簇,直到滿足某種停止準則為止。

連接準則:規定如何度量“最相似的簇”。

① ward型:兩個簇合并后,使得所有簇中方差增加最小

② average型:平均距離最小的兩個簇合并

③ complete型:簇中點之間最大距離最小的兩個簇合并

注:凝聚算法不能對新數據點做出預測

凝聚聚類生成了所謂的層次聚類

3. DBSCAN (具有噪聲的基于密度的空間聚類應用)

原理

識別特征空間的“擁擠”區域中的點,這些區域成為密集區域。簇形成數據的密集區域,并由相對較空的區域分隔開。在密集區域中的點成為核心樣本,指定參數eps和min_samples。如果在一個點eps的距離內至少有min_samples個數據點,則為核心樣本。

算法過程

① 任意選取一個點,檢查是否是核心樣本。

② 若不是,標記為噪聲。反之,標記為核心樣本,并分配一個新的簇標簽。然后檢查鄰居,若未被分配,分配簇標簽;如果是核心樣本,依次訪問鄰居。

③ 選取另一個尚未被訪問過的點,重復以上過程。

最后得到三種點:核心點、邊界點、噪聲。

特點

優點:

不需先驗設置簇的個數

可以劃分具有復雜形狀的簇

可以找出不屬于任何簇的點

缺點:

不允許對新的測試數據進行預測

聚類評估

1. 真實值評估

調整rand指數(ARI),歸一化互信息(NMI)

二者都給出了定量的度量,最佳值為1,0表示不相關的聚類。

2. 沒有真實值

輪廓系數 計算一個簇的緊致度,值越大越好,最高分數為1。雖然緊致的簇很好,但不允許復雜的形狀。

聚類小結

k均值

可以用簇的平均值來表示簇。

可被看做是一種分解方法,。每個數據點都由其簇中心表示

DBSCAN

可以檢測噪聲點

可以自動判斷簇的數量

允許簇有復雜的形狀

有時會生成大小差別很大的簇,可能是優點可能是缺點

凝聚聚類

可以提供數據的可能劃分的整個層次結構

可以通過樹狀圖查看

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4702

    瀏覽量

    94971
  • 無監督學習
    +關注

    關注

    1

    文章

    17

    瀏覽量

    2816
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    使用MATLAB進行監督學習

    監督學習是一種根據未標注數據進行推斷的機器學習方法。監督學習旨在識別
    的頭像 發表于 05-16 14:48 ?605次閱讀
    使用MATLAB進行<b class='flag-5'>無</b><b class='flag-5'>監督學習</b>

    橋PFC變換器綜述

    器拓撲的發展歷程進行了全面綜述,并將橋 PFC 變換器拓撲合成方案分為三大,分別進行了詳細介紹。最后,給出了無橋變換器拓撲的發展方向。 關鍵詞:
    發表于 03-13 13:50

    數據降維工具介紹——SpatialPCA

    ,NMF)等,多是基于單細胞數據進行開發的,因此不一定完全適用于空間轉錄組數據。例如,常用的降維方法并沒有運用空間轉錄組所特有的組織空間定位信息,而僅僅只是基于表達譜進行
    的頭像 發表于 02-07 11:19 ?528次閱讀
    <b class='flag-5'>數據</b>降維<b class='flag-5'>聚</b><b class='flag-5'>類</b>工具介紹——SpatialPCA

    時空引導下的時間序列自監督學習框架

    【導讀】最近,香港科技大學、上海AI Lab等多個組織聯合發布了一篇時間序列監督預訓練的文章,相比原來的TS2Vec等時間序列表示學習工作,核心在于提出了將空間信息融入到預訓練階段,即在預訓練階段
    的頭像 發表于 11-15 11:41 ?696次閱讀
    時空引導下的時間序列自<b class='flag-5'>監督學習</b>框架

    曙光公司成都云中心助力提升監督質效

    數字化時代,用好大數據,推動數字技術深度融入紀檢監察各項業務,是大勢所趨。當前,各地正在探索推進大數據監督,借助海量數據、算力、算法,不斷延伸監督
    的頭像 發表于 11-05 10:05 ?506次閱讀

    屏蔽氧銅網線的作用是什么

    屏蔽氧銅網線在網絡和通信領域具有重要的作用,以下是其具體作用的詳細闡述: 一、提高數據傳輸質量和速度 六屏蔽氧銅網線采用優質的
    的頭像 發表于 10-29 10:42 ?715次閱讀

    【「時間序列與機器學習」閱讀體驗】全書概覽與時間序列概述

    。 ●第5章“時間序列的相似度與”:介紹時間序列的相似性度量方法,如歐氏距離、動態時間規整算法等,用于衡量兩個或多個時間序列在形狀和模式上的相似程度;算法,如K-Means、D
    發表于 08-07 23:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    收集海量的文本數據作為訓練材料。這些數據不僅包括語法結構的學習,還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監督學習
    發表于 08-02 11:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    章節最后總結了機器學習的分類:有監督學習監督學習、半監督學習、自監督學習和強化
    發表于 07-25 14:33

    如何理解機器學習中的訓練、驗證和測試

    理解機器學習中的訓練、驗證和測試,是掌握機器學習核心概念和流程的重要一步。這三者不僅構成了模型學習
    的頭像 發表于 07-10 15:45 ?6559次閱讀

    神經網絡如何用監督算法訓練

    神經網絡作為深度學習的重要組成部分,其訓練方式多樣,其中監督學習是一種重要的訓練策略。監督學習旨在從未標記的
    的頭像 發表于 07-09 18:06 ?1411次閱讀

    深度學習中的監督學習方法綜述

    應用中往往難以實現。因此,監督學習在深度學習中扮演著越來越重要的角色。本文旨在綜述深度學習中的監督學
    的頭像 發表于 07-09 10:50 ?1600次閱讀

    PyTorch如何訓練自己的數據

    PyTorch是一個廣泛使用的深度學習框架,它以其靈活性、易用性和強大的動態圖特性而聞名。在訓練深度學習模型時,數據是不可或缺的組成部分。然而,很多時候,我們可能需要使用自己的
    的頭像 發表于 07-02 14:09 ?3406次閱讀

    機器學習的經典算法與應用

    關于數據機器學習就是喂入算法和數據,讓算法從數據中尋找一種相應的關系。Iris鳶尾花數據是一個
    的頭像 發表于 06-27 08:27 ?1983次閱讀
    機器<b class='flag-5'>學習</b>的經典算法與應用

    基于FPGA的腦計算平臺 —PYNQ 集群的監督圖像識別腦計算系統

    STDP 監督學習算法,可運用于圖像的 監督分類。 從平臺設計角度: (1)本設計搭建的基于 PYNQ 集群的通用低功耗的大規模
    發表于 06-25 18:35
    主站蜘蛛池模板: 4虎影视国产在线观看精品 4虎影院永久地址www | 久久奈| 国产免费高清视频在线观看不卡 | 鲁丝一区二区三区 | 中日韩欧美在线观看 | 久久天天躁狠狠躁夜夜不卡 | 欧美一级欧美三级在线观看 | 久久作爱视频 | 午夜福利123 | 天天干夜夜操美女 | 日本不卡高清免费v日本 | 久久久噜噜噜久久久 | 久久久久久免费观看 | 色老头成人免费综合视频 | 狠狠五月婷婷 | 加勒比在线一区 | 黄色精品视频 | 欧美激情 在线 | 国产三级在线看 | 看全色黄大色大片免费 | 成年视频xxxxx免费播放软件 | 色爽爽爽爽爽爽爽爽 | 色妞视频资源在线观看 | 成人黄色免费观看 | 最近2018中文字幕2019高清 | 狠狠色噜噜狠狠狠狠888奇米 | 色婷五月综激情亚洲综合 | 国模大胆一区二区三区 | 视频免费1区二区三区 | 婷婷色亚洲| 午夜影院免费入口 | 国产精品福利久久 | 窝窝午夜看片成人精品 | 操他射他影院 | 日本午夜色 | 51视频在线观看免费国产 | 又黄又湿又爽 | 你懂的视频在线看 | 五月激情六月婷婷 | 四虎永久在线视频 | 亚洲一区二区三区在线 |