從進(jìn)入大學(xué),我就常在思考,未來要做什么,自己的興趣是什么。我的大學(xué)階段,在保證本專業(yè)的成績優(yōu)秀的情況下,我盡一切努力探索更多未知的領(lǐng)域。參加過全國物流設(shè)計(jì)大賽,電子商務(wù)大賽,機(jī)械設(shè)計(jì)大賽,創(chuàng)新創(chuàng)業(yè)大賽,全國大學(xué)生數(shù)學(xué)建模大賽,還參與各種社團(tuán),學(xué)生活動,只是為了找尋真正喜歡的方向。后面,我發(fā)現(xiàn)能從心底里感興趣,真正喜歡的就是參與數(shù)學(xué)建模的整個過程,這也在最后奠定了以后的方向。
保研后,在完成學(xué)校所有的論文要求和實(shí)驗(yàn)室項(xiàng)目的同時,我開啟了數(shù)據(jù)分析的實(shí)習(xí)道路,現(xiàn)在已經(jīng)在互聯(lián)網(wǎng)實(shí)習(xí)快一年了,記錄一下所有的成長歷程吧!
首先是面試,有兩輪的面試,因?yàn)槭羌夹g(shù)崗,第一個面試官問了兩個算法題和一個數(shù)學(xué)題,第二個面試官問了一個用sql處理數(shù)據(jù)的問題和兩個數(shù)學(xué)題,而第二個面試官就是我們數(shù)據(jù)組的老大。
開始的一周,需要搭建跳板機(jī),vpn和git的環(huán)境,接著就開始工作了。
我們組的工作內(nèi)容:
我們組的工作是分析公司各業(yè)務(wù)的log日志,包括服務(wù)器和客戶端,還有每個業(yè)務(wù)服務(wù)的數(shù)據(jù)庫中的數(shù)據(jù)。最后搭建數(shù)據(jù)倉庫,完成一整套數(shù)據(jù)收集,處理,分析到展示的過程,其中還涉及監(jiān)控和報警,有離線數(shù)據(jù)還有實(shí)時數(shù)據(jù)的分析。我們提供一個數(shù)據(jù)報表展示平臺,每一個報表由運(yùn)維,產(chǎn)品,運(yùn)營,服務(wù)器開發(fā)等同事提出數(shù)據(jù)需求,最后由我們完成,同時,我們還會處理各種臨時需求,數(shù)據(jù)分析等工作,并提供一個方便大家查詢數(shù)據(jù)的sql查詢接口。
技術(shù)流:
首先,各業(yè)務(wù)的產(chǎn)品經(jīng)理想要分析某個點(diǎn)擊行為或者功能,需要和對應(yīng)的開發(fā),和我們組協(xié)商打點(diǎn)的數(shù)據(jù)格式,參數(shù),對應(yīng)的服務(wù)器名,日志路徑,或者jdbc,庫名與表名,對應(yīng)的字段名稱,具體業(yè)務(wù)邏輯和含義。業(yè)務(wù)產(chǎn)品需要給我們提出數(shù)據(jù)分析需求,不同的維度的篩選,統(tǒng)計(jì)指標(biāo)的定義。接著需要大數(shù)據(jù)工程師,如果是離線數(shù)據(jù),需要用sqoop將數(shù)據(jù)導(dǎo)入hdfs上,存入規(guī)定地標(biāo)準(zhǔn)路徑和文件中,建立partition以天為分區(qū)。然后數(shù)據(jù)分析工程師需要搭建整個數(shù)據(jù)倉庫,公司的數(shù)據(jù)倉庫是用php搭建的框架,對應(yīng)格式基本一致的數(shù)據(jù)源,用hive建表,可以對應(yīng)csv,用jave寫serde進(jìn)行解析等方式處理,如果是非格式化且記錄之間的格式變動較大,需要用pig處理,pig中調(diào)用python,處理后再用hive建表,也有需要用r進(jìn)行處理的數(shù)據(jù),最后數(shù)據(jù)經(jīng)過ods,dw層以hive表記錄,到最后dm層時實(shí)現(xiàn)產(chǎn)品最后的統(tǒng)計(jì)分析需求,dm以mysql表記錄,數(shù)據(jù)倉庫的建立需要伴隨著業(yè)務(wù)不斷修改邏輯,最后展示到web中,web中還需要進(jìn)行一些簡單的sql進(jìn)行展示,用js插件可以調(diào)用不用的數(shù)據(jù)展示形式。實(shí)時數(shù)據(jù)是用kafak進(jìn)行收集,然后實(shí)時查詢,離線數(shù)據(jù)是晚上12:00開始跑job,其中包括任務(wù)調(diào)度,依賴等的設(shè)置。如果有以月跑的數(shù)據(jù),還crontab進(jìn)行調(diào)度,有些數(shù)據(jù)還需要外部信息,比如ip地址的對應(yīng),手機(jī)型號等,要寫對應(yīng)爬蟲收集相關(guān)數(shù)據(jù)。公司有三個業(yè)務(wù),業(yè)務(wù)的數(shù)據(jù)還會內(nèi)嵌,交叉統(tǒng)計(jì),有時候某一個業(yè)務(wù)邏輯修改會影響很多數(shù)據(jù)的統(tǒng)計(jì)結(jié)果,因此數(shù)據(jù)分析工作是一個復(fù)雜的系統(tǒng)工程。
作為一個數(shù)據(jù)分析工程師,我的工作主要是分析離線數(shù)據(jù),在產(chǎn)品提出需求后,分析要統(tǒng)計(jì)的邏輯,提出倒數(shù)需求log或mysql,建立數(shù)據(jù)倉庫hive,pig,python,php,從ods層到dm層寫出數(shù)據(jù)統(tǒng)計(jì)的邏輯,最后把數(shù)據(jù)放如mysql,最后配置web頁面,有時候會寫簡單的爬蟲,跑臨時數(shù)據(jù),會用shell寫個簡單的腳本,用crontab進(jìn)行調(diào)度等。倉庫的代碼用git管理。
結(jié)語:
喜歡我們組的氛圍,大家都熱愛各種創(chuàng)新的技術(shù)和分析方法,熱愛分享。很感激老大帶領(lǐng)我進(jìn)入了公司,進(jìn)入了我們組,感謝大家對我的幫助,開啟了我數(shù)據(jù)分析的道路。
-
工程師
+關(guān)注
關(guān)注
59文章
1571瀏覽量
68574 -
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1455瀏覽量
34090
發(fā)布評論請先 登錄
相關(guān)推薦
![](https://file1.elecfans.com/web3/M00/05/24/wKgZPGd9BIKAasMYAAP9Ml_injM792.jpg)
不同時期的硬件工程師,最怕發(fā)生的事 #電子工程師 #硬件工程師 #內(nèi)容過于真實(shí) #YXC晶振 #揚(yáng)興科技
為什么嵌入式驅(qū)動開發(fā)工程師可以拿高薪?
NVIDIA助力百度提升數(shù)據(jù)分析效能
![](https://file1.elecfans.com/web2/M00/07/FB/wKgZombz6VuAFeotAAIjSCj1HKI007.jpg)
硬件工程師VS軟件工程師|硬件工程師看到這都淚目了!#硬件設(shè)計(jì) #硬件工程師 #電子工程師 #軟件工程師
數(shù)據(jù)分析有哪些分析方法
嵌入式軟件工程師如何提升自己?
![](https://file1.elecfans.com/web2/M00/EB/14/wKgaomZXAd-AWEwjAAuV2RdwuSM130.png)
干硬件這一行,各種辛酸只有同行才懂吧 ? #電路設(shè)計(jì) #電子愛好者 #硬件工程師 #電子工程師
索尼誠邀軟件工程師參與PS免費(fèi)手游平臺設(shè)計(jì)
![](https://file1.elecfans.com/web2/M00/E5/09/wKgZomZB1aqAfoLMAALwKMk88bw153.jpg)
求助,關(guān)于AD采集到的數(shù)據(jù)分析問題
![](https://file1.elecfans.com/web2/M00/DE/DE/wKgZomYwuQ-AegjsAAISSibiD4I286.jpg)
![](https://file1.elecfans.com/web2/M00/C5/1E/wKgaomXxdsmAENR6AAKEdyutPEU736.jpg)
一位硬件工程師的歷練之路:從入門學(xué)習(xí)理論到... #搞笑 #硬件工程師 #電子工程師 #揚(yáng)興科技
單片機(jī)如何通過代碼控制硬件:一名工程師的分享
![單片機(jī)如何通過代碼控制硬件:<b class='flag-5'>一名</b><b class='flag-5'>工程師</b>的分享](https://file1.elecfans.com/web2/M00/C2/D6/wKgZomXoETmAYdSCAADYRReTHqA347.png)
![](https://file1.elecfans.com/web2/M00/C1/46/wKgaomXUeXuAXDwNAAJ_XqvplMU996.jpg)
評論