數(shù)據(jù)科學(xué)一直是個(gè)引人注目的領(lǐng)域,尤其是對于那些有計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)、業(yè)務(wù)分析、工程管理、物理、數(shù)學(xué)等學(xué)科背景的年輕人。但霧里看花始終看不清晰,人們總是認(rèn)為數(shù)據(jù)科學(xué)背后有許多神秘的地方,覺得它不僅僅是機(jī)器學(xué)習(xí)和統(tǒng)計(jì)。
多年來,我與許多專業(yè)人士討論過該如何進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域。為什么總有關(guān)于數(shù)據(jù)科學(xué)的炒作?能夠幫助人們走進(jìn)這一領(lǐng)域的仍然是統(tǒng)計(jì)數(shù)據(jù)和機(jī)器學(xué)習(xí)嗎?未來也仍是如此嗎?
兩個(gè)月前,我從研究生院畢業(yè)后直接作為數(shù)據(jù)科學(xué)家加入了媒體巨頭ViacomCBS。除了研究助理和實(shí)習(xí)之外,沒有任何全職行業(yè)經(jīng)驗(yàn)。我的工作職責(zé)包括從構(gòu)想、開發(fā)到生產(chǎn)ML產(chǎn)品,使用過文中列出的大部分工作方式。希望本文能幫到所有有志于進(jìn)軍這一領(lǐng)域的數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師們。
為什么總有關(guān)于數(shù)據(jù)科學(xué)的炒作?
幾乎人人都想要進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域。幾年前,數(shù)據(jù)科學(xué)領(lǐng)域存在供需問題:自從DJPatil博士和JeffHammerbacher創(chuàng)造了Data Science一詞后,對數(shù)據(jù)科學(xué)家的需求大大增加,相關(guān)人才顯得供不應(yīng)求。
到了2020年,情況有所好轉(zhuǎn)。受到過正規(guī)或者M(jìn)OOC教育的數(shù)據(jù)科學(xué)愛好者的數(shù)量有所增加,人才需求也有所增加,但沒達(dá)到前者的增長程度。這一術(shù)語所涵蓋的領(lǐng)域越來越廣泛,包含了人們進(jìn)行數(shù)據(jù)科學(xué)工作所需的大多數(shù)功能。每個(gè)人都在談?wù)摂?shù)據(jù)科學(xué),但大多數(shù)卻不得其法。
我認(rèn)為數(shù)據(jù)科學(xué)總被炒作有以下幾個(gè)原因:
前沿發(fā)展
工作滿意度高
業(yè)務(wù)影響巨大
數(shù)據(jù)生成量增加
數(shù)據(jù)科學(xué)家頭銜背后的神秘感
數(shù)據(jù)很好看!(不是字面意思~)
大量學(xué)校和訓(xùn)練營能提供數(shù)據(jù)科學(xué)學(xué)位
許多招聘網(wǎng)站將其評為最熱門的工作(最近3年被Glassdoor評為美國最熱門的工作)
自稱是數(shù)據(jù)科學(xué)家的人?
總有人會(huì)這么介紹自己,所以讓我就當(dāng)前的行業(yè)狀況講一些真相。
由于職位需求的增加和數(shù)據(jù)科學(xué)家頭銜的光鮮,許多公司已開始將產(chǎn)品分析師、商業(yè)情報(bào)分析師、業(yè)務(wù)分析師、供應(yīng)鏈分析師、數(shù)據(jù)分析師和統(tǒng)計(jì)學(xué)家的職位改為數(shù)據(jù)科學(xué)家,因?yàn)樵S多人離職的原因便是去應(yīng)聘數(shù)據(jù)科學(xué)家的職位,但實(shí)際上這些公司提供的工作內(nèi)容往往是一樣的。
許多人從職位頭銜微小的字詞變化中感到了被尊重。因此,公司們以相同的思路改變職位名稱,使他們的職位顯得更耀眼也更令人期待,例如數(shù)據(jù)科學(xué)家-分析方向、產(chǎn)品數(shù)據(jù)科學(xué)家、數(shù)據(jù)科學(xué)家-增長方向、數(shù)據(jù)科學(xué)家-供應(yīng)鏈方向、數(shù)據(jù)科學(xué)家-可視化方向或數(shù)據(jù)科學(xué)家,還有什么不能加的方向?
大多數(shù)接受教育或者在線培訓(xùn)的人都有一個(gè)誤區(qū),認(rèn)為所有數(shù)據(jù)科學(xué)家都會(huì)建立精致的機(jī)器學(xué)習(xí)模型,但這種認(rèn)知并不完全正確。我剛開始攻讀應(yīng)用數(shù)據(jù)科學(xué)碩士時(shí)就是這樣想的,以為大多數(shù)數(shù)據(jù)科學(xué)家都是做機(jī)器學(xué)習(xí)。
但是當(dāng)我開始在美國實(shí)習(xí)和就業(yè)時(shí),才逐漸了解真相。推動(dòng)人們走向數(shù)據(jù)科學(xué)的力量,其實(shí)源自對人工智能及其業(yè)務(wù)影響的炒作。
下一代數(shù)據(jù)科學(xué)家——機(jī)器學(xué)習(xí)
在2020年,對于想要以數(shù)據(jù)科學(xué)家-ML方向(這樣命名因?yàn)樗皇菙?shù)據(jù)科學(xué)家-分析方向)的身份進(jìn)行應(yīng)用機(jī)器學(xué)習(xí),卻又沒有博士學(xué)位的人來說,除了人人都可做的將機(jī)器學(xué)習(xí)應(yīng)用到數(shù)據(jù)集,可選的方法更多了。我將從自身經(jīng)驗(yàn)出發(fā)分享一些關(guān)鍵點(diǎn),或許有助于你的面試:
分布式數(shù)據(jù)處理/機(jī)器學(xué)習(xí):掌握Apache Spark、ApacheHadoop、Dask等技術(shù)的實(shí)踐經(jīng)驗(yàn)?zāi)軌蜃C明你可以大規(guī)模創(chuàng)建Data / ML管道。有以上任何一種技術(shù)的應(yīng)用經(jīng)驗(yàn)都很加分,不過我還是建議使用Apache Spark(使用Python或Scala)。
生產(chǎn)環(huán)境機(jī)器學(xué)習(xí)/數(shù)據(jù)管道:如果可以親身體驗(yàn)Apache Airflow就再好不過了。ApacheAirflow是用于創(chuàng)建數(shù)據(jù)和機(jī)器學(xué)習(xí)管道的標(biāo)準(zhǔn)開源作業(yè)編排工具。行業(yè)里已經(jīng)在使用它,因此建議你學(xué)習(xí)并圍繞它進(jìn)行一些項(xiàng)目。
DevOps/Cloud:數(shù)據(jù)科學(xué)領(lǐng)域,很多人都過分忽視了DevOps。如果沒有基礎(chǔ)架構(gòu)的話,要如何構(gòu)建ML管道?構(gòu)建在本地計(jì)算機(jī)上運(yùn)行的筆記本或代碼,并不像我們在課程中所做的那樣容易。你編寫的代碼應(yīng)該可跨自己或其他人可能在團(tuán)隊(duì)中創(chuàng)建的基礎(chǔ)結(jié)構(gòu)進(jìn)行擴(kuò)展。
許多公司可能尚未布局ML基礎(chǔ)架構(gòu),正在尋找入門人員。即使在課程學(xué)習(xí)中,熟悉Docker,Kubernetes以及使用Flask之類的框架構(gòu)建ML應(yīng)用程序也應(yīng)該是標(biāo)準(zhǔn)做法。我喜歡Docker,因?yàn)樗哂锌蓴U(kuò)展性,可以構(gòu)建基礎(chǔ)架構(gòu)映像,并在Kubernetes集群上的服務(wù)器/云上復(fù)制相同的內(nèi)容。
數(shù)據(jù)庫:必須了解數(shù)據(jù)庫和查詢語言。盡管SQL被嚴(yán)重忽略,但無論在任何云平臺(tái)或數(shù)據(jù)庫上,它仍然是行業(yè)標(biāo)準(zhǔn)。開始在leetcode上練習(xí)復(fù)雜的SQL將幫助到你應(yīng)對在DS profiles中的某些編碼面試部分,因?yàn)槟阋?fù)責(zé)在預(yù)處理進(jìn)行時(shí)從倉庫中導(dǎo)入數(shù)據(jù),這將簡化你在運(yùn)行ML模型前進(jìn)行預(yù)處理。使用SQL將數(shù)據(jù)傳輸?shù)侥P椭袝r(shí),大多數(shù)功能工程可以隨時(shí)隨地完成,然而很多人會(huì)忽略這點(diǎn)。
編程語言:推薦用于數(shù)據(jù)科學(xué)的編程語言是Python、R語言、Scala和Java,了解他們中的任何一個(gè)都可以幫助你解決問題。對于ML類型的工作,面試過程中都將進(jìn)行現(xiàn)場編碼,因此你需要在自己覺得有效率的地方練習(xí)——Leetcode或者Hackerrank等。
如今,除非你足夠幸運(yùn),在行業(yè)中有一些重要的關(guān)系(建立人際關(guān)系網(wǎng)非常重要!)或擁有署名的出色研究記錄,否則只了解機(jī)器學(xué)習(xí)或統(tǒng)計(jì)學(xué)的話,你仍無法進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域并學(xué)習(xí)ML。商業(yè)應(yīng)用程序和領(lǐng)域知識(shí)往往需要工作經(jīng)驗(yàn),但是除了在相關(guān)行業(yè)進(jìn)行實(shí)習(xí)之外,這些經(jīng)驗(yàn)事先無從習(xí)得。
我也曾站在數(shù)據(jù)科學(xué)的路口徘徊,如今就要親歷下一代數(shù)據(jù)科學(xué)家進(jìn)入領(lǐng)域的需求在當(dāng)下成型。這個(gè)行業(yè)日新月異,需要你不斷調(diào)整自己跟上它的腳步。
責(zé)編AJX
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7256瀏覽量
91832 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8502瀏覽量
134589 -
數(shù)據(jù)科學(xué)
+關(guān)注
關(guān)注
0文章
168瀏覽量
10485
發(fā)布評論請先 登錄
深圳人形機(jī)器人行走視頻震驚英偉達(dá)科學(xué)家,下一個(gè)劃時(shí)代產(chǎn)品是AI機(jī)器人?

下一代PX5 RTOS具有哪些優(yōu)勢
納米壓印技術(shù):開創(chuàng)下一代光刻的新篇章

百度李彥宏談?dòng)?xùn)練下一代大模型
西湖大學(xué):科學(xué)家+AI,科研新范式的樣本

螞蟻集團(tuán)收購邊塞科技,吳翼出任強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室首席科學(xué)家
下一代機(jī)器人技術(shù):工業(yè)自動(dòng)化的五大趨勢
AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感
《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得
《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得
Jim Fan展望:機(jī)器人領(lǐng)域即將迎來GPT-3式突破
通過電壓轉(zhuǎn)換啟用下一代ADAS域控制器應(yīng)用說明

實(shí)現(xiàn)具有電平轉(zhuǎn)換功能的下一代無線信標(biāo)

評論