在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

什么是大數據采集和預處理

汽車電子技術 ? 來源:碼農與軟件時代 ? 作者: 碼農與軟件時代 ? 2023-02-15 14:22 ? 次閱讀

大數據導論

理順大數據的演進路線

數據湖是個啥?

一般情況下,大數據處理的流程為:數據采集和預處理、數據存儲、數據分析和數據可視化。

數據采集與預處理便是大數據流程的第一步。

首先來看, 數據是如何產生的

(1)為滿足企業業務目標的達成,企業通常會建設IT系統,IT系統承載企業業務處理的同時,必然會產生交易記錄、付款記錄等等,這些都會保存在數據庫中;

(2)為了更好地預測消費者的需求,購物網站通常也會記錄消費者的網頁瀏覽時長、點贊、收藏、購買喜好等,這些都會記錄在日志文件中;

(3)為了滿足消費者獲取信息的便捷性,各大門戶網站、短視頻網站等都提供了大量的Web網頁供用戶瀏覽,Web網頁中呈現大量的文本、音視頻等;

那么,這些數據產生后,都 以什么形式存在 ?

(1)以文件的形式存在,如csv文件、圖像文件、視頻文件、日志文件;

(2)以數據庫的形式存在,如關系型數據庫MySql\\oracle、非關系型數據庫MongoDB;

(3)以Web網頁的形式存在,如新浪、搜狐、知乎等;

(4)以實時數據的形式存在,如物聯網絡中各種傳感器監測到的數據;

這樣,具象化的數據采集就變成從數據庫、Web網頁、文件、物聯傳感器等地方獲取。因數據存在形式的差異,采用的獲取方法也不盡相同:

(1)文件、Web網頁的抓取,通常采用直接編程的方式獲取,如網頁爬蟲;

(2)實時消息的獲取,則采用相應的協議,如MQTT、Coap、HTTPS;

(3)對數據庫數據的獲取,則更多采用SQL的形式提取出來;

獲取的數據,還存在什么問題 ?

獲取的原生數據,可能會存在數據缺失、數據重復、數據類型和值都不對等問題,需要對數據進行加工處理,這一過程被稱為“數據清洗”;

如果數據源是多個,并且要裝入到同一數據倉庫時,則需要進行“數據集成”;

數據集成后,往往需要更高粒度的抽象,擦除一些細節數據,如原有按交易時間記錄的數據,現在需要按天進行統計,此時需要進行聚類處理,稱之為“數據轉換”;

同時,注意到大數據可能涉及到隱私問題,也需要去除隱私數據,這一過程稱為“數據脫敏”;

而數據清洗、數據集成、數據轉換、數據脫敏這一系列的過程,稱為 數據預處理 。

經過預處理后的數據放在哪?

可以將其放入數據倉庫中,如Hive\\HDFS;

也可以將其放入數據湖中,不但可以存儲原始數據,也可以存儲結構化、半結構化、非結構 化的數據,并且還能支撐數據的分析。具體可參考《數據湖是個啥?》

數據的采集與處理是繁瑣的,也是有跡可循的,聰明的研究人員實現了一系列 工具或框架

(1)網頁爬蟲系統:Apache Nutch、Crawler4j、Scrapy;

(2)日志收集工具:Flume、Logstash、Filebeat、Fluentd;

(3)多源異構數據采集工具:Sqoop、Datax。

同時,也形成大數據采集的方法論,如ETL。

ETL也就是Extract-Transform-Load,對應為提取-轉換-加載,充當了數據源與數據倉庫之間的數據流轉管道。其基本思想是:從日志、數據庫、Web頁面中提取數據,并數據進行轉換,按照預先規劃的Schema,將數據加載到數據倉庫中去。

Kettle(水壺)、Sqoop(SQL-to-Hadoop)、DataX是ETL工具的代表。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據采集
    +關注

    關注

    40

    文章

    6963

    瀏覽量

    115734
  • 數據存儲
    +關注

    關注

    5

    文章

    997

    瀏覽量

    51616
  • 大數據
    +關注

    關注

    64

    文章

    8952

    瀏覽量

    139511
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    一文匯總大數據四大方面十五大關鍵技術

    本文針對大數據的關鍵技術:大數據采集、大數據預處理大數據存儲、大數據分析挖掘四大方面的15大關
    發表于 11-11 15:46 ?1.1w次閱讀

    如何使實時數據采集處理系統保持數據的高速傳輸

    當前,越來越多的設計應用領域要求具有高精度的A/D轉換和實時處理功能。在實時數據采集處理系統設計中,一般需要考慮數據采集以及對采集數據
    的頭像 發表于 12-17 09:10 ?6991次閱讀
    如何使實時<b class='flag-5'>數據采集</b><b class='flag-5'>處理</b>系統保持<b class='flag-5'>數據</b>的高速傳輸

    基于串行通信的虛擬儀器數據采集

    A/D轉換和預處理,通過RS-232串行口與主機進行信息傳送,插拔方便。主機通過數據處理軟件對數據進行處理和分析。用戶可以通過主機的軟件界面對單片機(從機)進行控制,使之能按照不同的要
    發表于 03-09 15:52

    高速數據觸發采集預處理

    各位大俠,本人在做數據采集處理時碰到了如下問題:使用NI的采集卡,每次觸發采集500個數據點,外觸發信號頻率為200KHz,并對100次觸
    發表于 08-11 23:42

    一種基于FPGA和DSP的高速數據采集設計方案介紹

    的信號處理任務越來越繁重,對數據采集處理系統的要求也越來越高。特別是在移動通信領域,基站和手機的物理信道處理都是實時信號處理。實時信號
    發表于 07-05 06:41

    基于SOPC的數據采集處理系統設計

    基于礦井地震勘探中對數據采集處理的高性能要求,本文采用SOPC (可編程片上系統)技術設計了多通道數據采集處理系統。系統采用24位模數轉換芯片實現高精度
    發表于 05-23 10:50 ?1584次閱讀
    基于SOPC的<b class='flag-5'>數據采集</b>與<b class='flag-5'>處理</b>系統設計

    大數據的核心有哪些?

    大數據技術的體系龐大且復雜,基礎的技術包含數據采集、數據預處理、分布式存儲、NoSQL數據庫、
    發表于 05-22 14:22 ?8010次閱讀

    交通軌跡大數據預處理方法及其實驗分析

    交通軌跡大數據預處理方法及其實驗分析
    發表于 06-27 15:00 ?6次下載

    大數據技術及應用介紹1

    大數據技術體系發展至今,不斷充實完善,與互聯網、物聯網、人工智能等其他信息通信技術融合交匯,現已較為成熟。圍繞數據資源的全生命周期過程** ,大數據基礎技術包含大數據采集技術、
    的頭像 發表于 03-29 14:14 ?1927次閱讀

    大數據技術有哪些 大數據前景

    大數據從字面意思來理解,就是海量數據的結合,從數據分析全流程的角度,大數據技術主要包括數據采集預處理
    的頭像 發表于 04-14 17:45 ?4489次閱讀

    每日一課 | 智慧燈桿之大數據預處理技術介紹

    2.大數據預處理技術大數據預處理技術主要完成對已接收數據的辨析、抽取、清洗等操作。(1)抽?。阂颢@取的
    的頭像 發表于 04-07 14:38 ?872次閱讀
    每日一課 | 智慧燈桿之<b class='flag-5'>大數據</b><b class='flag-5'>預處理</b>技術介紹

    每日一課 | 智慧燈桿之大數據采集技術簡介

    大數據是一種從各種類型的數據中快速獲得有價值信息的技術。大數據領域已經涌現出了大量新的技術,它們成為大數據采集、存儲、處理和呈現的有力武器。
    的頭像 發表于 03-14 14:52 ?1064次閱讀
    每日一課 | 智慧燈桿之<b class='flag-5'>大數據采集</b>技術簡介

    大數據采集系統分為幾類

    和應用場景. 1. 概述 大數據采集系統是實現數據收集、處理和存儲的關鍵環節。隨著大數據技術的快速發展,大數據采集系統也在不斷演進和創新。本
    的頭像 發表于 07-01 15:44 ?2185次閱讀

    數控機床數據采集如何實現?

    數控機床數據采集過程是一個從物理連接到數據處理的完整鏈條,涉及設備連接、數據采集、預處理和傳輸的復雜過程,包含通信協議匹配、設備配置、數據采集
    的頭像 發表于 11-18 17:52 ?962次閱讀
    數控機床<b class='flag-5'>數據采集</b>如何實現?

    CNC數據采集網關具備哪些功能特點

    支持:支持MTConnect、OPCUA、Modbus等多種數據格式和通信協議,能與西門子、三菱、發那科等不同品牌及型號的CNC系統兼容,實現數據的統一采集。 ? 數據處理方面
    的頭像 發表于 03-06 10:12 ?307次閱讀
    CNC<b class='flag-5'>數據采集</b>網關具備哪些功能特點
    主站蜘蛛池模板: 色婷婷99综合久久久精品 | sss欧美华人整片在线观看 | 美女视频黄视大全视频免费网址 | 天堂bt种子资源+在线 | 伦理片日本韩国电影三级在线观看 | 狠狠狠色丁香婷婷综合久久88 | 性色a| 成年人在线网站 | 亚洲一区免费视频 | 午夜在线视频观看版 | 亚洲免费视频播放 | 天天看天天爽天天摸天天添 | 亚洲国产系列 | 黄色的视频在线免费观看 | 久久亚洲综合色 | 日韩三级久久 | 中国高清性色生活片 | 欧美精品区 | 伊人久久成人成综合网222 | 夜夜嘿视频免费看 | 天堂网在线视频 | 国产亚洲精品久久午夜 | 欧美操bb | 国产卡1卡2卡三卡网站免费 | 四虎最新网站 | 一级片在线观看视频 | 四虎影音在线观看 | 国产又黄又爽又猛的免费视频播放 | 免费一级特黄特色大片在线观看看 | 美女免费观看一区二区三区 | 绝色村妇的泛滥春情 | 五月综合久久 | 巨骚综合网| 日韩在线视频免费观看 | 中文字幕乱码人成乱码在线视频 | 天天操天天曰 | 日日拍夜夜嗷嗷叫狠狠 | 神马午夜限制 | 成人黄色免费看 | 99久久精品费精品国产 | 久久久久四虎国产精品 |