在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

不懂AI數據挖掘?清華人工智能中心權威報告帶你深入解讀!

電子工程師 ? 來源: 聶磊 ? 作者:電子發燒友 ? 2019-02-28 08:44 ? 次閱讀
數據挖掘(Data Mining)是一門跨學科的計算機科學分支,它用人工智能機器學習、統計學和數據庫的交叉方法,在大規模數據中發現隱含模式,在零售、物流、旅游等行業有著廣泛應用場景。

在數據爆炸的時代里,如何利用手中數據資源提高行業效率、提高行業質量,成為了眾多企業決策者所關注的問題,數據挖掘也逐漸成為當下的熱門研究領域之一,受到了谷歌、亞馬遜、阿里、百度等科技巨頭的追捧。

本文為大家推薦來自清華大學人工智能研究院、北京智源人工智能研究院、清華-工程院知識智能聯合研究中心聯合推出的人工智能數據挖掘報告,詳細解讀了數據挖掘技術應用領域、研究概念、算法實現、與發展趨勢。數據挖掘與KDD

數據挖掘(Data Mining),是指從大量的數據中自動搜索隱藏于其中的有著特殊關系性的數據和信息,并將其轉化為計算機可處理的結構化表示。

目前數據挖掘的主要功能包括概念描述、關聯分析、分類、聚類和偏差檢測等,用于描述對象內涵、概括對象特征、發現數據規律、檢測異常數據等。

一般來說,數據挖掘過程有五個步驟:確定挖掘目的、數據準備、進行數據挖掘、結果分析、知識的同化

▲數據挖掘過程基本步驟

(一)確定挖掘目的

認清數據挖掘的目的是數據挖掘的重要一步。挖掘的最后結果是不可預測的,但要探索的問題應是有預見的。

數據準備

數據準備又分為三個階段:

1、數據的選擇:搜索所有與目標對象有關的內部和外部數據信息,并從中選擇出適用于數據挖掘應用的數據;

2、數據的預處理:研究數據的質量,為進一步的分析做準備,并確定將要進行的挖掘操作的類型;

3、數據的轉換:將數據轉換成一個分析模型。這個分析模型是針對挖掘算法建立的。建立一個真正適合挖掘算法的分析模型是數據挖掘成功的關鍵。

(三進行數據挖掘

對得到的經過轉換的數據進行挖掘。

(四)結果分析

解釋并評估結果,其使用的分析方法一般應視數據挖掘操作而定,通常會用到可視化技術。

(五)知識的同化

將分析所得到的知識集成到所要應用的地方去。

▲數據挖掘的分類表

如上圖所示,數據挖掘有多種分類方式,可以按照挖掘的數據庫類型、挖掘的知識類型、挖掘所用的技術類型進行分類。

同時,數據挖掘也可以按照行業應用來進行分類,比如生物醫學、交通、金融等行業都有其獨特的數據挖掘方法,不能做到用同一個數據挖掘技術應用到各個行業領域

數據挖掘是知識發現(KDD)的一個關鍵步驟。1989年8月,Gregory I. Piatetsky- Shapiro等人在美國底特律的國際人工智能聯合會議(IJCAI)上召開了一個專題討論會(workshop),首次提出了知識發現(Knowledge Discovery in Database,KDD)這一概念。

▲數據挖掘是知識發現的過程之一

KDD涉及數據庫、機器學習、統計學、模式識別、數據可視化、高性能計算、知識獲取、神經網絡、信息檢索等眾多學科和技術的集成,再后來的30年間KDD逐漸形成了一個獨立、蓬勃發展的交叉研究領域。

早期比較有影響力的發現算法有:IBM的Rakesh Agrawal的關聯算法、UIUC大學韓家煒(Jiawei Han)教授等人的FP Tree算法、澳大利亞的John Ross Quinlan教授的分類算法、密西根州立大學Erick Goodman的遺傳算法等等。

目前,數據挖掘已經引起國際、國內工業界的廣泛關注,IBM、谷歌、亞馬遜、微軟、Facebook、阿里巴巴、騰訊、百度等都在數據挖掘研究方面進行了應用與理論研究。

國際知識發現與數據挖掘大會(ACM SIGKDD Conference on Knowledge Discovery and Data Mining,簡稱SIGKDD)是數據挖掘領域的頂級國際會議,由ACM的數據挖掘及知識發現專委會負責協調籌辦,會議內容涵蓋數據挖掘的基礎理論、算法和實際應用。

數據挖掘源于商業的直接需求

數據挖掘技術從一開始就是面向應用的,源于商業的直接需求。目前數據挖掘在零售、旅游、物流、醫學等領域都有所應用,可以大大提高行業效率和行業質量。

舉個例子,零售是數據挖掘的主要應用領域之一。這是因為由于條形碼技術的發展使得前端收款機系統可以收集大量售貨、顧客購買歷史記錄、貨物進出狀況、消費與服務記錄等數據。

數據挖掘技術有助于識別顧客購買行為,發現顧客購買模式和趨勢,改進服務質量,取得更高的顧客保持力和滿意程度,減少零售業成本。

同時,同一顧客在不同時期購買的商品數據可以分組為序列,序列模式挖掘可用于分析顧客的消費或忠誠度的變化,據此對價格和商品的花樣加以調整和更新,以便留住老客戶,吸引新客戶。

與此同時,社交網絡也是數據挖掘研究中的熱門領域,比如新浪微博就是擁有海量數據的資訊平臺。

截止到2017年12月,新郎微博已擁有接近4億活躍用戶,內容存量超千億,“大V”的一舉一動和社會熱點話題都會引起大量的評論與轉發,掀起一股“數據風暴”。

▲柯潔烏鎮大戰AlphaGo撼負后的微博熱議

微博上每個用戶的言論、轉發內容等都蘊藏著用戶個人的興趣、話題等信息,文字內容本身的智能分析理解也是數據分析領域長久以來孜孜不倦追求的目標。

社會網絡中的聚類被稱為社區發現,許多精心設計的高效算法可以很好地處理上億用戶的大規模網絡。

針對微博用戶的海量數據,對其進行數據描述性可以分析群體的年齡、性別比例、職業等;對于平均數、中位數、分位數、方差等統計指標可以幫助我們粗略了解數據分布;回歸分析、方差分析等方法則可以解釋年齡、職業等因素是否會影響用戶對某熱門話題的關注程度。

此外,數據挖掘在旅游、物流、醫學等領域都有著廣泛的應用場景。比如數據挖掘可以對旅游客流的趨向有著準確的預知性,同時對于游客的喜好也有著直接性的掌握;從醫學數據中尋找潛在的關系或規律,可以獲得對病人進行診斷、治療的有效知識,增加對疾病預測的準確性等。

人工智能與數據挖掘
數據挖掘從一個新的視角將數據庫技術、統計學、機器學習、信息檢索技術、數據可視化和模式識別與人工智能等領域有機結合起來,它組合了各個領域的優點,因而能從數據中挖掘到運用其他傳統方法不能發現的有用知識。

一般來說,統計特征只能反映數據的極少量信息。簡單的統計分析可以幫助我們了解數據,如果希望對大數據進行逐個地、更深層次地探索,總結出規律和模型,則需要更加智能的基于機器學習的數據分析方法。

所謂“機器學習”,是基于數據本身的,自動構建解決問題的規則與方法。數據挖掘中既可以用到非監督學習方法,也可以用到監督學習方法。

(一)非監督學習

非監督學習是建立在所有數據的標簽,即所屬的類別都是未知的情況下使用的分類方法。對于特定的一組數據,不知道這些數據應該分為哪幾類,也不知道這些類別本來應該有怎樣的特征,只知道每個數據的特征向量。若按它們的相關程度分成很多類,最先想到的想法就是認為特征空間中距離較近的向量之間也較為相關,倘若一個元素只和其中某些元素比較接近,和另一些元素則相距較遠。

這時候,我們就希望每一個類有一個“中心”,“中心”也是特征向量空間中的向量,是所有那一類的元素在向量空間上的重心,即他的每一維為所有包含在這一類中的元素的那一維的平均值。如果每一類都有這么一個“中心”,那么我們在分類數據時,只需要看他離哪個“中心”的距離最近,就將他分到該類即可,這也就是K-means算法的思路。

K-means算法,在1957年由Stuart Lloyd在貝爾實驗室提出,最初用于解決連續的圖區域劃分問題,1982年正式發表。1965年,E.W.Forgy發明了Lloyd-Forgy or。James MacQueen在1967年將其命名為K-means算法。

上圖是以隨機生成的數據點為例,k=3的K-means算法的迭代過程,其中五角星為聚類中心,點的顏色是其類別。在實際應用中,為了獲得一個比較好的特征空間,使得“數據之間的相似性與他們在特征空間上的距離有關,距離越近越相似”這句話盡可能成立,我們往往會構建模型來把原數據變換到這么一個特征空間,然后使用K-means算法來進行分類。

(二)監督學習

不同于非監督學習,若已知一些數據上的真實分類情況,現在要對新的未知的數據進行分類。這時候利用已知的分類信息,可以得到一些更精確的分類方法,這些就是監督學習方法。

1、決策樹模型

所謂決策樹,即是一種根據條件來進行判斷的邏輯框架。其中,判斷的條件,即提出有區分性的問題,以及對于不同的回答下一步的反映,以及最終的決策給出標簽。

決策樹算法:

(1)選取包含所有數據的全集為算法的初始集合A0:

(2)對于當前的集合A,計算所有可能的“問題”在訓練集上的F(A,D):

(3)選擇F(A,D)最大的“問題”,對數據進行提問,將當前的集合由“問題”的不同回答,劃分為數個子集;

(4)對每個子集,重復b、c,直到所有子集內所有元素的類別相同;

(5)在實際應用中,數據往往有很多特征,因此,“問題”往往是選取數據的某一特征,而“回答”則是此特征對應的值。

在決策樹中,效度函數F(A,D)的選擇非常重要。決策樹的發展歷史,也基本是圍繞著F(A,D)的優化而展開。

2、kNN算法

只知道每個數據在特征空間下的特征向量情況下,可以對數據采用無監督分類方法K-means。如果我們擁有了其中一部分數據的標簽,我們就可以利用這些標簽進行kNN分類。

數據之間的相似性與他們在特征空間上的距離有關。距離越近越相似,越可能擁有相同的標簽。

假設我們已經有了很多既知道特征向量也知道具體標簽的數據對于新的只知道特征向量卻不知道具體標簽的數據,我們可以選取離這個特征向量最近的k個已經知道標簽的數據,然后選取他們中間最多的元素所屬于的那個標簽,作為新數據的預測標簽。也可以根據他們與新數據的特征向量之間的距離加權(如最近得5分,第二近得4分等),取權重總和最大的標簽作為預測標簽。

kNN算法不需要構建模型或者訓練,和K-means算法一樣,往往是和某個構建特征空間的模型一起使用。

此外,還有回歸分類、神經網絡、樸素貝葉斯分類等等。

巨頭們的數據挖掘之路

在當下,數據挖掘也逐漸成為當下的熱門研究領域之一,受到了谷歌、亞馬遜、微軟、百度、阿里、騰訊等科技巨頭的追捧。

(一)谷歌

谷歌幾乎每年都會發表一些讓人驚艷的研究工作,包括之前的MapReduce、Word2Vec、BigTable,近期的BERT。數據挖掘是谷歌研究的一個重點領域。

2018年谷歌全球不同研究中心在數據挖掘頂級國際會議KDD上一共發表了7篇文章。

(二)亞馬遜

亞馬遜公司近幾年發展勢頭超級猛,前幾年華麗的轉身:從一個網上商店公司變為云平臺公司再轉變到目前的人工智能公司,亞馬遜也在數據挖掘領域開始占有一席,尤其是在人才網羅、開源、核心技術研發。

2018年亞馬遜在數據挖掘頂級國際會議KDD的Applied Data Science Track(應用數據科學Track)上一共發表了2篇文章,另外還有兩個應用科學的邀請報告。

(三)微軟

微軟是老牌論文王國,一直以來都在學術界特別活躍,因此在KDD上每年和微軟有關的論文非常多,因此這里只統計了微軟作為第一作者的文章。

2018年在數據挖掘頂級國際會議KDD上一共發表了6篇文章,另外還有一個應用科學的邀請報告,這些文章和報告都更多的從大數據的角度在思考如何更有效,更快速的分析。

(四)阿里巴巴

阿里巴巴在電子商務方面做了大量的數據挖掘研究。尤其是在表示學習和增強學習做了幾個很有意思的工作。

2018年阿里巴巴在數據挖掘頂級國際會議KDD上作為第一作者單位一共發表了8篇文章。

(五)騰訊

2018年騰訊在數據挖掘頂級國際會議KDD上作為第一作者單位一共發表了2篇文章。

(六)百度

2018年百度在數據挖掘頂級國際會議KDD上作為第一作者單位一共發表了2篇文章。

大數據與數據挖掘

大數據是近年隨著互聯網、物聯網通信網絡以及人類社交網絡快速發展的結果,成為一個交叉研究學科,和數據挖掘緊密相連。

大數據的迅速發展也使得數據挖掘對象變得更為復雜,不僅包括人類社會與物理世界的復雜聯系,還包括呈現出的高度動態化。這使得很多傳統數據挖掘算法不再適用,傳統數據挖掘算法必須滿足對真實數據和實時數據的處理能力,才能從大量無序數據中獲取真正價值。

一方面大數據包含數據挖掘的各個階段,即數據收集、預處理、特征選擇、模式挖掘、表示等;另一方面大數據的基礎架構又為數據挖掘提供上層數據處理的硬件設施。

▲大數據處理平臺技術架構圖

從技術架構角度,大數據處理平臺可劃分為4個層次:數據采集層、數據存儲層、數據處理層和服務封裝層。

除此之外,大數據處理平臺一般還包括數據安全和隱式保護模塊,這一模塊貫穿大數據處理平臺的各個層次。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    32487

    瀏覽量

    271675

原文標題:清華178頁深度報告:一文看懂AI數據挖掘

文章出處:【微信號:robotop2025,微信公眾號:每日機器人峰匯】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅動科學創新

    大力發展AI for Science的原因。 第2章從科學研究底層的理論模式與主要困境,以及人工智能三要素(數據、算法、算力)出發,對AI for Science的技術支撐進行
    發表于 09-09 13:54

    AI for Science:人工智能驅動科學創新》第4章-AI與生命科學讀后感

    很幸運社區給我一個閱讀此書的機會,感謝平臺。 《AI for Science:人工智能驅動科學創新》第4章關于AI與生命科學的部分,為我們揭示了人工智能技術在生命科學領域中的廣泛應用和
    發表于 10-14 09:21

    AI人工智能:54份行業重磅報告匯總(附下載)

    AI視覺是研究新方向 報告13:中國人工智能的未來之路 發布機構:麥肯錫 時間:2017報告14:CB Insights:智能汽車才是未來
    發表于 11-21 09:56

    解讀人工智能的未來

    `已歷經60多年的人工智能在物聯網以及大數據的推動下,實現飛躍式的發展,并且迎來了第三個黃金周期。必優傳感今天和大家解讀一下關于人工智能的未來。自從有了
    發表于 11-14 10:43

    人工智能:超越炒作

    的機會。然而,在通往更大,更具影響力的道路上,這只是一個中途停留。我們正在談論事物的人工智能。今天的智能對象,即使它們流式傳輸數據,了解我們的偏好并且可以通過應用程序進行控制,它們也不是AI
    發表于 05-29 10:46

    基于人工智能的傳感器數據協同作用

    作者:Kaustubh Gandhi,Bosch Sensortec軟件產品經理人工智能AI)目前正在為社會的方方面面帶來革新。比如,通過結合數據挖掘和深度學習的優勢,如今可以利用
    發表于 07-25 06:20

    【VIP福利六】300G人工智能資料,讓你入門進階AI技術!

    手把手教你設計人工智能芯片及系統(全階設計教程+AI芯片FPGA實現+開發板)詳情鏈接:http://url.elecfans.com/u/c422a4bd15這里搜集了一批人工智能的學習資料,總共
    發表于 09-06 14:39

    史上最全AI人工智能入門+進階學習視頻全集(200G)【免費領取】

    語言使用,數學庫、數據結構及相關算法,深入學習AI算法模型訓練、分析,神經網絡、機器學習、深度學習等因此,為了幫助大家更好的入門學習AI人工智能
    發表于 11-27 12:10

    人工智能數據挖掘、機器學習和深度學習的關系

    人工智能數據挖掘、機器學習和深度學習之間,主要有什么關系?
    發表于 03-16 11:35

    人工智能、機器學習、數據挖掘有什么區別

    人工智能、機器學習、數據挖掘的區別
    發表于 05-14 16:02

    如何使用人工智能來發揮傳感器數據的協同作用

    人工智能AI)目前正在為社會的方方面面帶來革新。比如,通過結合數據挖掘和深度學習的優勢,如今可以利用人工智能來分析各種來源的大量
    發表于 05-19 08:13

    人工智能ai論文

    人工智能ai論文
    發表于 07-28 08:39

    《移動終端人工智能技術與應用開發》人工智能的發展與AI技術的進步

    人工智能的發展是隨著人類生活需要,產業需求不斷提升的,其中人工智能的發展很大程度上受到了計算機算力的影響,隨著數據處理量的增大,人工智能算法對算力的要求逐年增加,而且沒過兩年算力上升一
    發表于 02-17 11:00

    AI智能呼叫中心

    隨著科技的飛速發展,人工智能(AI)已經成為了各行各業的關鍵技術,其中,AI智能呼叫中心的出現,給傳統的呼叫
    發表于 09-20 17:53

    清華人工智能產業發展論壇于廈門成功舉辦

    為促進政府、科研、企業、資本深入合作,打造國內一流人工智能研發中心,推動廈門市、福建省乃至全國產業智能化升級,6月2日,由清華海峽研究院主辦
    發表于 07-05 11:48 ?1042次閱讀
    主站蜘蛛池模板: 欧美性视频一区二区三区 | 国产精品欧美久久久久天天影视 | 午夜国产 | 一区二区三区久久 | 精品国产高清在线看国产 | 日韩一级视频 | 色屋视频 | 公开免费视频 | 亚洲午夜小视频 | 久久99精品久久久久久秒播 | 美女视频黄的免费视频网页 | 久久青青成人亚洲精品 | 日本理论片www视频 日本理论午夜中文字幕第一页 | 五月婷婷激情六月 | 欧美五月激情 | 亚洲bt欧美bt高清bt777 | 国产三及 | 午夜高清在线观看免费6 | 性欧美护士18xxxxhd | 午夜毛片视频 | 午夜影院在线观看视频 | 婷婷色九月综合激情丁香 | 天堂8在线天堂资源在线 | 亚洲va老文色欧美黄大片人人 | 日本xxxx69| 日本网站黄色 | 免费一级牲交毛片 | 拍拍拍成人免费高清视频 | 手机在线观看毛片 | 奇米777狠狠 | 一及黄色 | 四虎精品成人a在线观看 | 一区二区在线免费视频 | 欧美另类激情 | 天天综合网久久 | 激情综合网婷婷 | 国产天天色| 天天看天天摸天天操 | 欧美伊人 | 久久精品视频免费播放 | 日韩免费观看一级毛片看看 |