在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度過濾電子郵件里的“垃圾”的AI算法

如意 ? 來源:科技行者 ? 作者:科技行者 ? 2021-01-06 16:25 ? 次閱讀

目前,全球每天發出的3000億封電子郵件中,至少有半數屬于垃圾郵件。郵件服務供應商的首要任務自然是過濾掉這些垃圾郵件,以確保用戶能夠快速找到真正具有價值的重要郵件。

但垃圾郵件的檢測本身相當復雜。首先,垃圾郵件與正常郵件之間的界限非常模糊,而且評判標準往往會隨時間推移而有所變化。截至目前,各家郵件服務商普遍采用自動化垃圾郵件檢測方法,而機器學習已經成為其中最有效、也最受青睞的核心選項。雖然我們或多或少還是會看到垃圾郵件,但在機器學習算法的強大支持之下,大多數垃圾郵件已經被從收件箱中直接清除。

那么,機器學習技術是怎么確定哪些是垃圾郵件、而哪些屬于正常郵件的?在本文中,我們將具體聊聊其中的工作原理。

挑戰所在

垃圾郵件有著多種不同風格。有些只是些市場調研的信息,只是想引誘收件人打開郵件或者傳播虛假信息。但也有一些屬于偽造型郵件,目標是引導收件者點擊惡意鏈接或下載惡意軟件。

但二者的共同點在于,它們都跟收件人的實際需求沒有半毛錢關系。垃圾郵件檢測算法需要找到可靠的垃圾郵件過濾方法,在屏蔽不必要內容的同時,避免清理掉那些用戶希望接收并查看的真實郵件。此外,算法本身還得持續適應新的趨勢性動態——例如由新冠疫情引發的群體恐慌、選舉消息以及加密貨幣社區的迅速升溫等等。

靜態規則適合解決這類需求。例如,如果郵件包含大量抄送方、正文部分極短以及主題部分全部大寫,那么其很可能屬于垃圾郵件。同樣,某些發送方的域名可能已經被列入垃圾郵件黑名單。但在大多數情況下,垃圾郵件檢測主要還是依賴于對郵件內容的具體分析。

樸素貝葉斯機器學習

機器學習算法使用統計模型對數據進行分類。在檢測垃圾郵件這一使用場景下,經過訓練的機器學習模型必須能夠根據郵件中的詞匯順序,判斷其可能屬于垃圾郵件抑或是正常郵件。

不同的機器學習算法都具備一定的垃圾郵件檢測能力,但目前最受關注的仍然是“樸素貝葉斯”算法。顧名思義,樸素貝葉斯算法以“貝葉斯定理”為基礎,即基于先驗知識對事件的概率做出描述。

深度過濾電子郵件里的“垃圾”的AI算法

之所以被冠名以“樸素”,是因為它首先假設觀測的特征只獨立存在。例如,如果使用樸素貝葉斯機器學習方法來預測是否會下雨,那么只需要濕度及溫度等少數特征,即可對是否降雨這個事件做出預測。

深度過濾電子郵件里的“垃圾”的AI算法

在檢測垃圾郵件時,情況無疑更為復雜。我們的目標變量為給定電子郵件屬于“垃圾”或者“非垃圾”。其特征則為電子郵件正文中包含的單詞或單詞組合。簡而言之,我們希望根據文本內容判斷出當前郵件屬于垃圾郵件的可能性。

這里需要強調的是,檢測垃圾郵件時使用的各項特征不一定彼此獨立。例如,我們可以將詞匯“烤”、“奶酪”和“三明治”結合起來,其在郵件語境下是否連續存在將表達出完全不同的含義。另一個更明確的例子就是“不”和“好玩”,獨立與非獨立分析將帶來徹底相反的結論。但好消息是,雖然文本數據內的特征獨立性往往非常復雜,但只要正確加以配置,樸素貝葉斯分類器同樣能夠有效處理大部分自然語言處理任務。

深度過濾電子郵件里的“垃圾”的AI算法

關于數據

垃圾郵件檢測屬于有監督機器學習問題。這意味著您需要為機器學習模型提供大量垃圾郵件與正常消息示例,幫助其從中找出相應模式以準確將二者區分開來。

大多數電子郵件服務商都擁有自己的標記郵件數據集。例如,每當您在Gmail賬戶內將一封電子郵件標記為垃圾郵件,谷歌方面就會使用這部分數據訓練自己的機器學習算法。(請注意,谷歌使用的垃圾郵件檢測算法要比本文示例復雜得多,而且他們還擁有一套用于防止「報告垃圾郵件」功能遭到濫用的完善機制。)

深度過濾電子郵件里的“垃圾”的AI算法

目前也有不少值得一試的開源數據集,例如加利福尼亞大學歐文分校的垃圾郵件數據庫數據集以及安然垃圾郵件數據集。但請注意,這些數據集僅供教育及測試使用,對于生產級機器學習模型的創建沒有太大實際意義。

自行托管電子郵件服務器的供應商可以創建起專門的數據集,并根據具體行業及用語對機器學習模型加以調整。例如,金融服務類企業的數據集在內容上將與建筑類企業存在巨大差異。

訓練機器學習模型

盡管近年來,自然語言處理技術取得了令人振奮的進步,但人工智能算法本身仍然無法像人類那樣順暢理解語言內容。

因此,開發垃圾郵件檢測類機器學習模型的一大關鍵步驟,在于準備數據以進行統計處理。在訓練樸素貝葉斯分類器之前,必須通過特定步驟整理出垃圾郵件與正常郵件的語料庫。

考慮一套包含以下語句的數據集:

Steve想為聚會買點烤芝士三明治

Sally正為晚飯燒烤雞肉

我買了奶油芝士做蛋糕

在訓練模型以及隨后對新數據進行預測時,我們首先需要對文本數據進行“令牌化”,而后將其添加到機器學習算法當中。在本質上,令牌化是指將文本數據拆分成較小的部分。如果您將上述數據集按用詞進行拆分,那么將獲得以下詞匯。請注意,每個詞只出現一次。

Steve、想為、聚會、買、烤、芝士、三明治、Sally、正、晚飯、燒烤、雞肉、我、買了、奶油、蛋糕

我們可以刪除掉那些垃圾郵件和正常郵件中都會出現的詞匯,因為這些詞匯沒法幫我們區分出郵件本身的性質。這些被稱為“停用詞”,常見的例子包括這、那、是、要、某等。在以上數據集中,刪除停用詞之后,我們的詞匯量將快速縮減為5個。

我們還可以使用其他技術,例如“詞干提取”與“詞條化”等,借此將詞匯轉換為更基礎的形式。繼續來看我們的示例數據集,其中的“買了”和“買”有著相同的詞根,“烤”和“燒烤”也有相同的詞根。通過這樣的處理,我們可以進一步簡化機器模型。

在某些情況下,大家還可以考慮使用雙詞(包含兩個詞的令牌)、三詞(包含三個詞的令牌)或者更長的N字令牌。例如,使用雙詞形式對上述數據集進行標記,將得到“芝士蛋糕”表達;三詞形式則會帶來“烤芝士三明治”表達。

在數據處理完成之后,您將獲得一份術語表,這些術語定義了機器學習模型中的各項特征。接下來,您需要確定哪些詞匯或者詞匯序列(如果使用N詞表達)與垃圾郵件及正常郵件相關。

在訓練數據集上訓練機器學習模型時,需要根據不同術語在垃圾郵件及正常郵件中出現的次數為其分配權重。例如,如果“贏大獎”屬于其中一項特征,而且只出現在垃圾郵件當中,那么任何具有此特征的郵件都很可能被歸類為垃圾郵件。與之對應,如果“重要會議”只出現在正常電子郵件中,那么任何具有此特征的郵件都很可能被歸類為正常郵件。

在數據處理完成,并對各特征分配了權重之后,您的機器學習模型即可過濾垃圾郵件。在收到一封新郵件之后,其中的文本將接受標記并按照貝葉斯公式運行。郵件正文中的每個術語均將乘以其權重,權重的總和即代表該電子郵件屬于垃圾郵件的可能性。(實際計算過程要更為復雜,但這里為了簡便起見,我們直接求取所有權重之和。)

使用機器學習技術實現高級垃圾郵件檢測

聽起來很簡單,但樸素貝葉斯機器學習算法在處理大部分文本分類任務(包括垃圾郵件檢測)時都取得了不錯的效果。

但它仍然不夠完美,這是肯定的。

與其他機器學習算法一樣,樸素貝葉斯算法無法理解語言的上下文,只能依靠詞匯之間的統計關系來判斷一段文本是否屬于某個類別。這意味著,如果發件人在郵件末尾添加一些符合正常郵件條件的詞匯,或者將符合垃圾郵件特征的某些術語替換為其他同義詞或相關詞,那么樸素貝葉斯算法很可能將垃圾郵件錯誤判斷為正常郵件。

樸素貝葉斯方法當然不是唯一能夠檢測出垃圾郵件的機器學習算法。其他流行的算法選項還包括遞歸神經網絡(RNN)與transformers,它們都能高效處理電子郵件及文本消息等有序數據。

最后需要注意的是,垃圾郵件檢測一直在不斷發展。就在開發者利用AI乃至其他技術檢測并過濾電子郵件中的有害消息時,垃圾郵件發送者也在尋求新的方法,希望騙過檢測系統、將垃圾郵件發送到收件者手中。也正因為如此,電子郵件服務商才需要持續運用用戶的數據改進并更新其垃圾郵件檢測器。
責編AJX

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4631

    瀏覽量

    93421
  • AI
    AI
    +關注

    關注

    87

    文章

    31673

    瀏覽量

    270472
  • 電子郵件
    +關注

    關注

    0

    文章

    110

    瀏覽量

    15397
收藏 人收藏

    評論

    相關推薦

    電子郵件的使用培圳教程

    電子郵件的使用培圳教程電子郵件的使用主要內容認識電子郵件通過POP3方式收發電子郵件申請一個免費的電子郵件信箱通過WWW在線方式收發
    發表于 03-10 17:55

    什么是電子郵件?

    親,什么是電子郵件?
    發表于 10-24 10:05

    電子郵件的使用教程

    電子郵件的使用主要內容認識電子郵件通過POP3方式收發電子郵件申請一個免費的電子郵件信箱通過WWW在線方式收發電子郵件 一 認識
    發表于 03-11 17:11 ?0次下載

    基于協同過濾垃圾郵件過濾系統

    針對當前垃圾郵件過濾技術中郵件性質評價難及郵件附件判斷難的問題,提出協同過濾模型,設計一個多層次垃圾郵件
    發表于 04-10 08:39 ?26次下載

    代價敏感支持向量機在垃圾郵件過濾中的應用

    支持向量機在垃圾郵件過濾中能達到較高的分類準確率,實際應用中,將正常郵件誤判為垃圾郵件會給用戶造成更大的損失。該文提出一個基于代價敏感支持向量機的
    發表于 04-22 10:01 ?14次下載

    基于樸素貝葉斯算法垃圾郵件網關

    本文針對垃圾郵件過濾問題,結合中文自身的特點,把廣泛適用于英文文本和郵件分類的樸素貝葉斯過濾方法應用在垃圾郵件網關
    發表于 08-14 14:28 ?17次下載

    基于Bayes的一種改良垃圾郵件過濾模型

    文章首先分析了垃圾郵件的產生機理,介紹了目前比較常見的幾種垃圾郵件過濾技術,然后從樸素貝葉斯的理論依據出發,針對當前應用于重要商業領域的垃圾郵件過濾
    發表于 08-18 09:39 ?6次下載

    垃圾郵件(Spam)與郵件過濾技術

    垃圾郵件(Spam)與郵件過濾技術 垃圾郵件一直是Internet的頑癥之一。垃圾郵件不僅浪費網絡資源,同時還可能造成巨大的社會負面影響
    發表于 03-02 11:40 ?1117次閱讀
    <b class='flag-5'>垃圾郵件</b>(Spam)與<b class='flag-5'>郵件</b><b class='flag-5'>過濾</b>技術

    電子郵件使用模擬實驗

    實驗十二  電子郵件使用模擬實驗一、實驗目的: 掌握電子郵件的注冊及使用流程,了解電子郵局的特點。二、實驗內容: 1)電子郵件注冊
    發表于 03-18 18:17 ?2058次閱讀

    電子郵件工作原理

    電子郵件工作原理 引言 全世界每天都有數千萬人使用電子郵件
    發表于 08-03 09:58 ?9648次閱讀

    病毒和蠕蟲如何在電子郵件中傳播?

    病毒和蠕蟲如何在電子郵件中傳播? 您可以在您的電子郵件信箱發現各種東西。包含以下內容的電子郵件附件屬于“破壞性”和/或“令人討厭”的類別: 特
    發表于 08-04 08:21 ?2591次閱讀

    垃圾郵件詳解

    垃圾郵件詳解 引言 我們中的大多數人每天都會收到垃圾郵件。只不過有些人收到的多一些,有些人則少一些,但是對于擁有電子郵件賬戶的人來說,垃圾郵件是位“
    發表于 08-05 10:12 ?1383次閱讀

    CCERT中文垃圾郵件過濾解決方案

    Chinese_rules.cf是用于業界廣泛使用的免費垃圾郵件過濾系統 SpamAssassin的中文垃圾郵件過濾規則集。由于以前沒有中文的過濾
    發表于 04-18 21:37 ?28次下載

    中文垃圾郵件過濾郵件服務器的實現_李玉峰

    中文垃圾郵件過濾郵件服務器的實現_李玉峰
    發表于 03-19 11:41 ?1次下載

    如何向您選擇的某人發送電子郵件

    您可以通過單擊左側的“發送”選項卡來確認您的電子郵件是否已發送。它將顯示您發送的所有電子郵件。如果未顯示最近發送的電子郵件,或者您希望發送其他電子郵件,請再次參考步驟2到5?,F在,您已
    的頭像 發表于 12-13 16:35 ?5083次閱讀
    如何向您選擇的某人發送<b class='flag-5'>電子郵件</b>
    主站蜘蛛池模板: 国产精选经典三级小泽玛利亚 | 成人国产精品2021 | 欧美97色| 青青热久久国产久精品秒播 | 一区二区三区视频 | 黄视频在线播放 | 男女做性无遮挡免费视频 | 精品福利视频网 | 久久视频免费看 | 天堂在线中文字幕 | 最新黄色大片 | 狠狠色综合久久久久尤物 | 国产日本久久久久久久久婷婷 | 黑人黑粗硬视频 | 欧美午夜色视频国产精品 | 四虎影院久久 | 日本不卡在线观看免费v | 美女网站一区二区三区 | 国产成年女一区二区三区 | 4455vw亚洲毛片| 色婷婷电影 | 五月激情婷婷网 | 在线天堂bt中文www在线 | 2021国产精品成人免费视频 | 久久综合九色综合欧洲色 | 免费一级毛片不卡在线播放 | 天天摸天天摸天天躁 | 色综合色综合色综合色综合网 | 四虎影院台湾辣妹 | 天天干天天干天天天天天天爽 | 夜恋秀场欧美成人影院 | 羞羞漫画喷水漫画yy漫画 | 午夜女上男下xx00xx00动态 | 欧美三级第一页 | 美女免费视频黄 | 国产三片理论电影在线 | 生活片一级性 | 久久亚洲aⅴ精品网站婷婷 久久亚洲成人 | 亚洲男女免费视频 | 婷婷六月久久综合丁香一二 | 国产精品va在线观看不 |