在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

什么是異常檢測_異常檢測的實用方法

WpOh_rgznai100 ? 來源:陳翠 ? 2019-06-29 09:25 ? 次閱讀

什么是異常檢測?

異常檢測是一個發現“少數派”的過程,由于它們與大多數數據不一樣而引起我們的注意。在幾個典型場景中,異常數據能為我們關聯到一些潛在的問題,如銀行欺詐行為、藥品問題、結構缺陷、設備故障等。這些關聯關系能幫助我們挑出哪些點可能是異常的,從商業角度來看,查出這些事件是非常有價值的。

這樣就引出我們的主要目標:我們如何分辨每個點是正常還是異常呢?在一些簡單的場景中,如下圖所示,數據可視化就可以給出重要信息。

圖 1:兩個變量的異常

在這個二維數據(X 和 Y)的例子中,判斷異常點是非常容易的,只需要觀察數據點在二維平面上的分布即可。然而,觀察右圖可以發現,只觀察一個變量是無法看出異常的,只有把變量 X 和變量 Y 結合起來觀察,才能發現異常點。當我們把數據維度從 2 提升到 10-100,這件事情就極其復雜了,實際場景的異常檢測也是如此。

什么是狀態監控?

無論任何機器,旋轉電機(泵、壓氣機、燃氣或蒸汽輪機等)或非旋轉機器(熱交換器、分裂蒸餾塔、閥門等),都會最終出現運轉異常的情況。出現這種情況時,機器并不一定是徹底壞掉了,可能只是無法以最佳狀態運轉,它可能需要進行維修以恢復完全的運轉能力。簡而言之,識別設備的“健康狀態”就是狀態監控領域所研究的問題。

在狀態監控中,最常用的方法是觀測機器的每個傳感器,并對其設置一個最小值和最大值。如果當前值在所設置范圍之內,說明機器運轉正常。如果當前值超出范圍,系統會給出預警信號,提醒機器運轉不正常。

對機器硬性施加報警閾值這一過程,會導致系統發出大量假的預警信號,即機器運轉正常時卻收到了異常報警。同時也存在預警信號遺漏的問題,即機器運轉異常卻沒有收到警示。第一個問題不僅浪費時間精力,也影響機器壽命。第二個問題更為嚴重,可能導致機器損壞,進而損失大量維修費用和生產損失。

而兩個問題都源于一個原因:設備的健康程度是一個高維的復雜問題,不能依賴于某個單獨的指標進行判斷(和圖 1 展示的異常檢測問題同理)。我們必須結合考慮多個檢測值,從而獲得一個更為真實的信號。

主要方法

說到異常檢測,很難把機器學習和統計分析全部覆蓋,我會避免在理論知識上過于深入(但會提供一些有詳細介紹的鏈接)的同時介紹一些常用方法。如果你對機器學習和統計分析在狀態監控方面的實際應用更感興趣,可以往下看“狀態監控實例”部分。

方法一:多變量統計分析

使用主成分分析法進行降維:PCA

處理高維數據總是充滿挑戰的,減少變量個數(降維)的方法有很多。其中最主要的方法是主成分分析法(PCA, principal component analysis),該方法將數據映射到一個低維空間,使數據在低維空間的方差最大化。在實際應用中,需要建立數據的協方差矩陣,并計算矩陣的特征向量。對應最大特征值(即主要成分)的特征向量可用作重新構建原數據集。如今原特征空間被減小了(部分數據丟失了,但保留了最重要的信息),得到了由部分特征向量構成的空間。

降維:

https://en.wikipedia.org/wiki/Dimensionality_reduction

PCA:

https://en.wikipedia.org/wiki/Principal_component_analysis

協方差矩陣:

https://en.wikipedia.org/wiki/Covariance_matrix

特征向量:

https://en.wikipedia.org/wiki/Eigenvalues_and_eigenvectors

多變量異常檢測

當處理單變量或兩個變量的異常檢測時,數據可視化常常是一個好的方法。然而,當拓展到高維數據時(同時也是大多數實際應用中的情況),這種方法就會極其難處理。幸運的是,多變量分析可以幫得上忙。

當處理一個數據點的集合時,這些點會有典型的特定分布(如高斯分布)。要想定量地檢測異常點,我們要先計算數據點的概率分布 p(x)。之后出現新的點 x,我們就可以用 p(x) 與閾值 r 作對比了。如果 p(x)

狀態監控場景中的異常檢測很有趣,因為異常可以告訴我們有關被監控設備是否“健康”的訊息:當設備臨近故障或非最優操作所產生的數據,與設備正常運轉所產生的數據在分布上不同。

多變量統計/多元統計:

https://en.wikipedia.org/wiki/Multivariate_statistics

高斯分布:

https://en.wikipedia.org/wiki/Normal_distribution

概率分布:

https://en.wikipedia.org/wiki/Probability_distribution

馬氏距離

試考慮一個數據點是否屬于某一分布的概率問題。第一個步驟是找到質心或者說樣本點的質量中心。直觀上來看,該點離質心越近,越可能屬于這個集合。然而,我們也要注意該集合的范圍大小,這樣我們才能判斷給定的離質心的距離是否值得注意。簡化的方法是去估計樣本點與質心距離的標準差。將其插入標準分布中,我們可以得出數據點是否屬于同一分布的概率值。

上述方法也存在缺陷,我們假設了樣本點相對于質心是球形分布的。如果它們的分布不是球狀的,而是橢圓狀的,我們在判斷測試點是否屬于該集合時,不僅要考慮與質心的距離,還要考慮方向。在那些橢圓短軸的方向上,測試點的距離一定更近,但那些長軸方向上測試點是遠離質心的。從數學角度看,我們可以通過計算樣本的協方差矩陣,來估計出最能代表集合分布的橢圓。馬氏分布是指從測試點到質心的距離除以橢圓在測試點方向上的寬度。

為了使用馬氏距離來判別一個測試點屬于 N 個分類中的哪一個,首先應該基于已知樣本與各個分類的對應情況,來估計每個類的協方差矩陣。在我們的例子中,我們只對“正常”和“異常”兩個類別感興趣,我們使用只包含正常操作狀態的數據作為訓練數據,來計算協方差矩陣。接下來,拿來測試樣本,計算出它們與“正常”類別的馬氏距離,如果距離高于所設置的閾值,則說明該測試點為“異常”。

馬氏距離:

https://en.wikipedia.org/wiki/Mahalanobis_distance

方法二:人工神經網絡

自動編碼器網絡

第二種方法是基于自動編碼器神經網絡。它的基本思想與上面的統計分析相似,但略有差異。

自動編碼器是一種人工神經網絡,通過無監督的方式學習有效的數據編碼。自動編碼器的目的是學習一組數據的表示(編碼),通常用于降維過程。與降維的一層一起,通過學習得到重建層,自動編碼器嘗試將降維層進行編碼,得到盡可能接近于原數據集的結果。

在結構上,最簡單的自動編碼器形式是前饋非循環神經網絡,與許多單層感知器類似,它們構成了包含輸入層、輸出層和用于連接的一個或多個隱藏層的多層感知器(MLP, multilayer perceptron),但輸出層的節點數與輸入層相同,目的是對自身的輸入進行重建。

自動編碼器:

https://en.wikipedia.org/wiki/Autoencoder

人工神經網絡:

https://en.wikipedia.org/wiki/Artificial_neural_network

有效數據編碼:

https://en.wikipedia.org/wiki/Feature_learning

無監督:

https://en.wikipedia.org/wiki/Unsupervised_learning

多層感知器:

https://en.wikipedia.org/wiki/Multilayer_perceptron

什么是異常檢測_異常檢測的實用方法

圖2:自動編碼器網絡

在異常檢測和狀態監控場景中,基本思想是使用自動編碼器網絡將傳感器的讀數進行“壓縮”,映射到低維空間來表示,獲取不同變量間的聯系和相互影響。(與 PCA 模型的基本思想類似,但在這里我們也允許變量間存在非線性的影響)

接下來,用自動編碼器網絡對表示“正常”運轉狀態的數據進行訓練,首先對其進行壓縮然后將輸入變量重建。在降維過程中,網絡學習不同變量間的聯系(例如溫度、壓力、振動情況等)。當這種情況發生時,我們會看到通過網絡重構后的輸入變量的異常報錯增多了。通過對重構后的報錯進行監控,工作人員能夠收到所監控設備的“健康”信號,因為當設備狀態變差時,報錯會增多。與基于馬氏距離的第一種方法類似,我們在這里使用重建誤差的概率分布來判斷一個數據點是正常還是異常。

狀態監控實例:齒輪軸承故障

在這個部分,我會介紹上述兩個不同方法在狀態監控實例中的應用。由于實際工作中大部分客戶的數據是無法公開的,我們選擇使用 NASA 的數據來展示兩種方法,讀者也可以通過鏈接自行下載。

NASA 數據下載:

http://data-acoustics.com/measurements/bearing-faults/bearing-4/

在該實例中,目的是檢測發動機上的齒輪軸承退化,并發送警告,以幫助工作人員及時采取措施以免齒輪故障。

實驗細節和數據準備

在恒定負載和運行條件下,三個數據集各包含四個軸承運行出現異常的數據。數據集提供了軸承生命周期內的振動測量信號,直到出現故障。前連天的運行數據被用作訓練數據,以表示正常且“健康”的設備。剩余部分的數據包含軸承運轉直到故障的過程,這部分數據用作測試數據,以評估不同方法是否能在運轉故障前檢測到其軸承異常。

方法一:PCA + 馬氏距離

正如本文“技術部分”中所介紹的,第一種方法先進行主成分分析,然后計算其馬氏距離,來辨別一個數據點是正常的還是異常的(即設備退化的信號)。代表“健康”設備的訓練數據的馬氏距離的分布如下圖所示:

什么是異常檢測_異常檢測的實用方法

圖3:“健康”設備的馬氏距離分布

利用“健康”設備的馬氏距離分布,我們可以設定判斷是否為異常點的閾值。從上面的分布圖來看,我們可以定義馬氏距離大于 3 的部分為異常。這種檢測設備老化的估計方法,需要計算測試集中全部數據點的馬氏距離,并將其與所設置的閾值進行比較,來標記其是否異常。

基于測試數據的模型評估

利用上述方法,我們計算測試數據,即運轉直到軸承故障這一時間段內數據的馬氏距離,如下圖所示:

什么是異常檢測_異常檢測的實用方法

圖 4:利用方法一檢測軸承故障

在上圖中,綠色點對應計算得到的馬氏距離,而紅線表示所設置的異常閾值。軸承故障發生在數據集的最末端,即黑色虛線標記處。這說明第一種方法可以檢測到 3 天后即將發生的設備故障。

現在我們用第二種建模方法做類似的實驗,以評估哪種方法更好。

方法二:人工神經網絡

如本文“技術部分”中所寫的,第二種方法包括使用自動編碼器神經網絡來尋找異常點。和第一種方法類似,我們在此也是用模型輸出的分布,用表示“健康”設備的數據作為訓練數據,來進行異常檢測。訓練數據集的重建損失分布如下圖所示:

什么是異常檢測_異常檢測的實用方法

圖 5::“健康”設備的重建損失分布

利用“健康”設備的重建損失分布,我們可以設置判斷數據是否異常的閾值。由上圖中的分布,我們可以設置損失大于 0.25 的部分為異常。這種檢測設備老化的評估方法包括計算測試集中全部數據點的重建損失,將該損失與所設置閾值作比較,來判別其是否異常。

基于測試數據的模型評估

利用上述方法,我們計算測試數據,即運轉直到軸承故障這一時間段內數據的重建損失,如下圖所示:

什么是異常檢測_異常檢測的實用方法

圖 6:利用方法二檢測軸承故障

在上圖中,藍色點對應重建損失,而紅線表示所設置的異常閾值。軸承異常發生在數據集的末端,即黑色虛線標記處。這表示該建模方法也能夠檢測到未來 3 天即將發生的設備異常。

總結

綜上所述,兩種不同的方法都能用作異常檢測,在機器實際發生故障前幾天就檢測到即將發生的事故。在現實生活場景中,這項技術可以幫助我們早在故障前就采取預防措施,不僅可以節約開銷,也在設備故障的 HSE 方面具有潛在的重要性。

展望

使用傳感器收集數據的成本越來越低,設備間的連通度也日益提升,從數據中提取有價值的信息變得越來越重要。從大量數據中挖掘模式是機器學習和統計的重要領域,利用這些數據背后隱藏的信息來改善不同領域有極大的可能性。異常檢測和狀態監控只是諸多可能性中的一種。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7233

    瀏覽量

    90816
  • 異常檢測
    +關注

    關注

    1

    文章

    43

    瀏覽量

    9804

原文標題:一文掌握異常檢測的實用方法 | 技術實踐

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    基于transformer和自監督學習的路面異常檢測方法分享

    鋪設異常檢測可以幫助減少數據存儲、傳輸、標記和處理的壓力。本論文描述了一種基于Transformer和自監督學習的新方法,有助于定位異常區域。
    的頭像 發表于 12-06 14:57 ?2121次閱讀
    基于transformer和自監督學習的路面<b class='flag-5'>異常</b><b class='flag-5'>檢測</b><b class='flag-5'>方法</b>分享

    基于深度學習的異常檢測的研究方法

    的研究方法進行了系統而全面的綜述。此外,我們回顧了這些方法在不同應用領域中的應用,并評估了它們的有效性。我們根據所采用的基本假設和方法,將最先進的深度異常
    發表于 07-12 07:10

    基于深度學習的異常檢測的研究方法

    ABSTRACT1.基于深度學習的異常檢測的研究方法進行結構化和全面的概述2.回顧這些方法在各個領域這個中的應用情況,并評估他們的有效性。3.根據基本假設和采用的
    發表于 07-12 06:36

    密度偏倚抽樣的局部距離異常檢測算法

    異常檢測是數據挖掘的重要研究領域,當前基于距離或者最近鄰概念的異常數據檢測方法,在進行海量高維數據異常
    發表于 12-25 14:11 ?0次下載

    基于ME-PGNMF的異常流量檢測方法

    由于部分網絡異常對流量變化影響不明顯,流量分析難以發現此類異常。傳統基于主成分分析的網絡異常流量檢測方法追求全局最優解,對局部特征提取不充分
    發表于 01-17 17:19 ?0次下載
    基于ME-PGNMF的<b class='flag-5'>異常</b>流量<b class='flag-5'>檢測</b><b class='flag-5'>方法</b>

    云模型的網絡異常流量檢測

    異常流量檢測方法,實現異常檢測定性與定量的轉換。在已有流量樣本的基礎上生成異常態勢的標尺云,針
    發表于 03-06 16:44 ?1次下載
    云模型的網絡<b class='flag-5'>異常</b>流量<b class='flag-5'>檢測</b>

    關于6種時序異常檢測淺析

    時序異常檢測并不困難,如果你找對方法則可以在今年KDD比賽中獲取比較好的成績。本文將使用tsod庫完成簡單的異常檢測
    的頭像 發表于 04-22 10:09 ?4241次閱讀
    關于6種時序<b class='flag-5'>異常</b><b class='flag-5'>檢測</b>淺析

    可解決報文激增異常的BGP異常檢測方法

     通過將邊界網關協議(BGP)更新報文激增異常問題抽象為二分類問題,提出一種基于改進高斯核函數的BGP異常檢測( IGKAD)方法。采用FMS特征選擇算法,選擇能同時最大化類間距離和最
    發表于 05-27 14:49 ?7次下載

    如何選擇異常檢測算法

    異常檢測(也稱為離群點檢測)是檢測異常實例的任務,異常實例與常規實例非常不同。這些實例稱為
    的頭像 發表于 10-25 09:15 ?1845次閱讀

    基于生成對抗網絡的異常檢測方法

    ,因為它們往往會偏向保證多數類的準確率。為此,本文提出了一種基于生成對抗網絡(GAN)的異常檢測方法。這個方法中的生成器結構是“編碼器–解碼器–編碼器”的三子網,并且訓練該生成器只需要
    發表于 04-06 16:06 ?3746次閱讀

    工業控制系統異常檢測方法的研究和應用情況

    傳統的工業控制系統不同于互聯網開放的體系,而是個體封閉的。但是隨著工業互聯網平臺的應用,越來越多的設備連接到企業網絡,從而引發了越來越多的網絡安全問題。傳統采用網絡流量的方法,出現了異常檢測困難
    發表于 10-14 11:31 ?2101次閱讀

    FreeWheel基于機器學習的業務異常檢測實踐

    本文介紹了 FreeWheel 基于機器學習的業務異常檢測實踐,提煉了從零開始構建業務異常檢測系統面臨的問題和解決方案,文章介紹了常用的異常
    的頭像 發表于 10-28 14:35 ?1104次閱讀

    使用MATLAB進行異常檢測(下)

    在使用 MATLAB 進行異常檢測(上)中,我們探討了什么是異常值,簡單的一維數據異常檢測問題,針對高維數據的有監督
    的頭像 發表于 11-24 10:46 ?2602次閱讀

    采用基于時間序列的日志異常檢測算法應用

    目前,日志異常檢測算法采用基于時間序列的方法檢測異常,具體為:日志結構化 -> 日志模式識別 -> 時間序列轉換 ->
    的頭像 發表于 12-09 10:47 ?1925次閱讀

    基于機器學習的汽車CAN總線異常檢測方法

    定制化開發,但存在異常樣本采集數量大和訓練難度高的問題。本文將結合個人經驗對基于機器學習的汽車CAN總線異常檢測方法展開具體介紹。
    的頭像 發表于 01-17 10:49 ?1534次閱讀
    主站蜘蛛池模板: 午夜国产福利在线观看 | 国产欧美一区二区三区观看 | 性欧美videofree另类超大 | 韩国三级hd中文字幕 | 亚洲电影在线看 | 成人在线黄色 | 国产香蕉一区二区精品视频 | 日本加勒比高清一本大道 | 99精品国产高清自在线看超 | 韩国三级日本三级在线观看 | 在线免费观看视频黄 | 色综合久久久高清综合久久久 | 操美女的视频网站 | 欧美性白人极品1819hd | h网站免费| 日韩黄a级成人毛片 | 天天天综合网 | 久久视频精品线视频在线网站 | 天天操网 | 欧美最猛性xxxx免费 | 美女免费毛片 | 在线观看一区二区三区视频 | 国产久热精品 | 久久综合一 | 久久国产精品自在自线 | 亚洲欧美日韩特级毛片 | 高清一级做a爱免费视 | 中文字幕一区二区三区精彩视频 | 35pao强力| 可以免费看的黄色片 | 亚洲影院手机版777点击进入影院 | 亚洲国产激情在线一区 | 国产精品青草久久久久福利99 | 俺来也俺去啦久久综合网 | 人人添人人澡人人澡人人人爽 | 国产一区在线mmai | 性a爱片免费视频性 | 好大好硬好深好爽视频h | 色视频免费国产观看 | 亚洲第一区精品日韩在线播放 | 三级黄色片在线播放 |