不可否認,大數據已經在 21 世紀掀起一場驚濤駭浪。很多人懷揣著成為數據科學家的夢想進入數據科學世界,上期我們提到了數據分析。其實,數據分析是一個數據消費的過程,在數據消費之前的數據準備工作,叫做數據工程。
數據是由許多數據源產生的,像生產執行系統MES,各種輔助生產的應用系統,產線的設備。這些數據源產生的數據我們把它叫做原始數據。
為了讓業務決策者使用這些數據,需要對其進行采集,清理,轉換,存儲,組合,聚合,處理過后的數據才是有價值的數據。
設計和實現這些數據處理的過程叫做數據工程。
數據的采集,清洗,轉換處理,是整個數據工程的關鍵,通常我們可以用ETL(Extract-Transform-Load)技術來實現。
隨著工廠的發展,各生產線,各部門都會搭建自己的應用系統方便開展自己的業務,隨著數字化建設的不斷深入,由于業務系統之間各自為政,相互獨立造成的數據孤島現象尤為普遍,業務不集成,數據不共享,給工廠進行數據的報表開發,數據分析,數據挖掘帶來了巨大困難。
通過ETL可以連接數據孤島,將分離的業務數據整合在一起,統一的采集,處理,共享。
數據倉庫是工廠的數據中心,所有系統產生的原始數據都流向數據倉庫,數據的存儲,標準化,組合都在數據倉庫中完成,最終把有價值的數據提供給各大數據應用系統。
可以說數據倉庫不產生數據,也不消費數據,只是數據的搬運工。
總的來說,如果把數據消費過程比作一盤美味的酸辣土豆絲,那數據工程就是個做菜的過程,土豆、蔥姜蒜、干紅辣椒、鹽、糖、醋這些原材料就是原始數據;去菜場買菜就好比數據采集;數據清理就是洗土豆,削皮;數據轉換就好比土豆切成絲,姜蔥蒜切末,辣椒切斷。然后準備工作做好以后就開始炒菜,放入蔥姜蒜末,辣椒段和土豆絲,炒菜過程中會加入適量的醋,鹽,糖調味,這就好比在對數據做組合,聚合處理。而這一切都是發生在數據倉庫這個大廚房。最后呈現就是一盤美味的酸辣土豆絲啦!
據統計,一個數據分析的項目接近80%的時間會花在準備數據上,這就是數據工程的意義所在。
工業大數據時代,在制造業產品的全生命周期從市場規劃、設計、制造、銷售、維護等過程都會產生大量的結構化和非結構化數據。
而智能工廠利用物聯網、人工智能、云計算、大數據技術提高服務和生產,其本質是實現了人、機器、設備、IT系統的通過數據互聯互通。
產生的數據越來越多,數據采集和集成的需求也越來越多,負責數據采集和集成的數據工程在向智能工廠邁進的數字化轉型中扮演著舉足輕重的角色。
-
MES
+關注
關注
5文章
1064瀏覽量
30829 -
數據處理
+關注
關注
0文章
626瀏覽量
29082 -
數據分析
+關注
關注
2文章
1470瀏覽量
34870
原文標題:AE-CN專家月 | 數據分析80%的時間都用在了哪里?
文章出處:【微信號:AE_China_10,微信公眾號:博世汽車電子事業部】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論