在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MarkLogic數(shù)據(jù)架構(gòu)師Kurt Cagle分享了他的洞見

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-06-30 08:20 ? 次閱讀

編者按:MarkLogic數(shù)據(jù)架構(gòu)師Kurt Cagle分享了他的洞見,缺乏良好的數(shù)據(jù)收集、整理、儲(chǔ)存過程,數(shù)據(jù)分析的結(jié)果只能是垃圾。

大約四年前,興起了數(shù)據(jù)科學(xué)家這一不可或缺的行當(dāng)。搞技術(shù)的紛紛扔掉讀大學(xué)時(shí)老舊的統(tǒng)計(jì)學(xué)課本,花了很多時(shí)間重新學(xué)習(xí)Python Pandas和R,還有最新的機(jī)器學(xué)習(xí)理論,添置了新款的白大褂。我知道我就是這么做的。

如果你曾經(jīng)是個(gè)Hadoop開發(fā)者,那數(shù)據(jù)科學(xué)也是一個(gè)好去處。畢竟所有人都以為不會(huì)map/reduce的數(shù)據(jù)科學(xué)家不是一個(gè)好數(shù)據(jù)科學(xué)家。這甚至可能延緩即將到來的Hadoop企業(yè)的崩潰到幾年之后,伴隨著印度程序員作坊大量炮制數(shù)以千計(jì)的新Hadoop程序員和數(shù)據(jù)科學(xué)“專家”,以趕上下一個(gè)大趨勢(shì)。

公司以最高的價(jià)格為此買單。Nasdaq上的每家公司都給數(shù)據(jù)科學(xué)家開出高薪,以免因?yàn)楹笾笥X而受到競爭對(duì)手的沖擊。同時(shí)銷售經(jīng)理和C開頭的那些執(zhí)行官也可以指望早上啟動(dòng)iPad后可以實(shí)時(shí)看到公司運(yùn)轉(zhuǎn)得有多好??刂泼姘逶?jīng)變成一大社會(huì)地位象征——資深的執(zhí)行官享有超級(jí)奢侈的執(zhí)行面板,基于3D可視化技術(shù)和實(shí)時(shí)動(dòng)畫散點(diǎn)圖,而相對(duì)初級(jí)的同事得到的是2D平面版本,只有最少的總結(jié)。

然而,到目前為止,并沒有什么真正的改變。數(shù)據(jù)科學(xué)家(大多數(shù)是高學(xué)歷人士,在制藥分析和高級(jí)材料工程這樣的領(lǐng)域具有多年經(jīng)驗(yàn))將逐漸意識(shí)到,他們需要處理的數(shù)據(jù)的質(zhì)量……好吧,不帶任何貶低地說,糟透了。人們被引導(dǎo)了,相信因?yàn)樗麄冇斜椴几魈幍某汕€(gè)數(shù)據(jù)庫,因此他們的組織有海量的數(shù)據(jù),并且大部分——如果不是全部的話——數(shù)據(jù)是有價(jià)值的。

那些數(shù)據(jù)科學(xué)家將發(fā)現(xiàn),情況與此相反,大部分?jǐn)?shù)據(jù)都是過時(shí)的,格式不對(duì),數(shù)據(jù)模型適用于創(chuàng)建數(shù)據(jù)的程序員當(dāng)時(shí)需要的應(yīng)用。大量數(shù)據(jù)是在電子表格中,在缺乏任何流程、控制和遠(yuǎn)見的情況下,被反復(fù)修改。這些記錄離真相很遠(yuǎn),有太多數(shù)據(jù)是缺乏文檔的一次性數(shù)據(jù),列名會(huì)是MFGRTL3QREVPRJ之類的,鍵也絕對(duì)是不一致的。

換句話說,他們擁有的數(shù)據(jù)基本上對(duì)任何分析而言都毫無用處,離那些擅長制藥試驗(yàn)日常測(cè)試結(jié)果分析的人心目中的分析更是差了十萬八千里。

現(xiàn)在你拿著15萬美元的年薪為業(yè)務(wù)代表提供控制面板,這些業(yè)務(wù)代表對(duì)統(tǒng)計(jì)學(xué)一無所知,但對(duì)需要百萬美元和授權(quán)才能玩轉(zhuǎn)的事情無能為力。你的數(shù)據(jù)雜亂不堪,還有相當(dāng)多的數(shù)據(jù)完全無用,但是說服業(yè)務(wù)代表重建數(shù)據(jù)庫會(huì)嚇哭他們的,因?yàn)檫@需要幾百萬美元,而且看起來并不必要。你當(dāng)然可以直接向他們?nèi)鲋e,草草裝配一個(gè)隨機(jī)數(shù)生成器,說不定提供給他們的數(shù)據(jù)還比他們知道得要準(zhǔn)確一點(diǎn)。但和數(shù)據(jù)打交道的人可不習(xí)慣撒謊,因?yàn)檫@和他們的基本目標(biāo)——盡可能地精確背道而馳。那么你會(huì)怎么做?

現(xiàn)在我得戴上我語義布道師的帽子,告訴你應(yīng)該開發(fā)一個(gè)語義數(shù)據(jù)倉庫。你真的應(yīng)該這么干,它并不沒有那么難,卻能提供一些實(shí)實(shí)在在的收益。不過我也會(huì)說它不是一個(gè)魔法般的解決方案。它讓你更容易以易于處理的格式獲取數(shù)據(jù)(或者有助于查明哪些數(shù)據(jù)是垃圾,可以直接刪除)。然而,現(xiàn)實(shí)是,這并不是一個(gè)數(shù)據(jù)科學(xué)問題——這是一個(gè)數(shù)據(jù)品質(zhì)和本體工程問題。

所以,讓我說得更清楚一點(diǎn),讓那些穿著執(zhí)行官的衣服的人也可以理解。你有數(shù)據(jù)問題。你的數(shù)據(jù)科學(xué)家具備各種有用的工具可以呈上數(shù)據(jù)分析的結(jié)果,然而沒有優(yōu)質(zhì)的數(shù)據(jù),他們產(chǎn)出的東西完全是無意義的。這不是他們的錯(cuò)。這是你的錯(cuò),你期望酷炫的控制面板能為你贏得一千萬美元的合同的每一天,都是在浪費(fèi)時(shí)間,都是看著錢從你那里流走的一天。

你的工作可不簡單。你需要做的是首先確定你實(shí)際需要追蹤的信息,接著花時(shí)間和你的數(shù)據(jù)科學(xué)家以及數(shù)據(jù)本體學(xué)家(data ontologist)討論下需要哪些數(shù)據(jù)。別指望指著一個(gè)數(shù)據(jù)庫,然后數(shù)據(jù)會(huì)魔法般地出現(xiàn)在那里。

數(shù)據(jù)庫總的來說是讓程序員用來編寫應(yīng)用的,而不是提供公司內(nèi)部的深層測(cè)度的。坐下來查看下你現(xiàn)在具備的資源,你需要理解那些依賴這些數(shù)據(jù)庫完成他們的工作的人會(huì)非常不情愿給你訪問權(quán)限,特別是這些權(quán)限可能導(dǎo)致他們擔(dān)責(zé)的時(shí)候。此外,你還需理解大多數(shù)數(shù)據(jù)庫的文檔都很糟糕(這已經(jīng)算好的了,其實(shí)大多數(shù)數(shù)據(jù)庫根本沒有文檔),因此需要基于隱晦的參考進(jìn)行偵破。這稱為病理計(jì)算,大多數(shù)程序員都討厭干這個(gè),因?yàn)檫@意味著猜測(cè)其他程序員的大腦,這些程序員很可能已經(jīng)離職了,水平不明,忘記了十年寫的東西是什么意思。

關(guān)系數(shù)據(jù)湖(relational data lake)并沒有解決這個(gè)問題。數(shù)據(jù)湖解決的問題是讓同一個(gè)主機(jī)可以訪問所有數(shù)據(jù)。對(duì)于病理計(jì)算而言,這是必要的部分,但它既不是最難的部分,也不是最昂貴的部分。最昂貴的部分是搞明白數(shù)據(jù)到底意味著什么,甚至僅僅是識(shí)別出分散的數(shù)據(jù)集談?wù)摰耐患?。這一問題沒有現(xiàn)成的解決方案,如果任何人告訴你有,那他們?cè)诤鲇颇恪?/p>

我要再一次植入語義方案的廣告——graph triple store、RDF、ontology management等等。這些不是開箱即用的解決方案,卻是使病理分析得以實(shí)行的工具,并能將管理這些過程的手段交到程序員手中。

然而,你需要理解,這一切經(jīng)常需要你重新思考數(shù)據(jù)流的整個(gè)流程,理解在一開始如何捕獲信息并及早傳入合適的管道。它需要你的程序員和數(shù)據(jù)庫管理員放棄部分自治,基于一個(gè)中央化的聯(lián)合存儲(chǔ)工作。它也意味著你作為執(zhí)行官需要更熟悉數(shù)據(jù)管理和數(shù)據(jù)來源。

對(duì)大多數(shù)商業(yè)人員而言,這都是一個(gè)相當(dāng)激進(jìn)的轉(zhuǎn)變,比讓部分商業(yè)人員做一些IT工作要激進(jìn)得多。然而,今天的商業(yè)正在轉(zhuǎn)變(大部分已經(jīng)轉(zhuǎn)變)為碰巧銷售貨物或服務(wù)的數(shù)據(jù)管理公司。比起管理銷售,今天的CEO的角色需要更多地關(guān)注所在組織的數(shù)據(jù)輸入和輸出,確保數(shù)據(jù)的品質(zhì)盡可能好。這并不僅僅是為了應(yīng)對(duì)合規(guī)性要求,而是因?yàn)閿?shù)據(jù)的完整性對(duì)這些公司在市場上的成功至關(guān)重要。

這意味著你需要和你的執(zhí)行數(shù)據(jù)團(tuán)隊(duì)確定你需要知道和想要知道的信息的范圍,以及哪些信息是無關(guān)的,然后確立必要的流程收集和商業(yè)需求相關(guān)的數(shù)據(jù)。直接指向數(shù)據(jù)庫的一個(gè)接口,提取它的內(nèi)容,除了增加磁盤存儲(chǔ)開銷外毫無影響,雇傭數(shù)據(jù)科學(xué)家分析垃圾數(shù)據(jù)只會(huì)產(chǎn)生垃圾分析。如果你在意的話,它可能很美觀,充斥著梯度和3D特效,但毫無作用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:為什么你不需要數(shù)據(jù)科學(xué)家

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    kintex產(chǎn)品架構(gòu)設(shè)計(jì)文檔(成為架構(gòu)師也是電子人不錯(cuò)的選...

    kintex產(chǎn)品架構(gòu)設(shè)計(jì)文檔(成為架構(gòu)師也是電子人不錯(cuò)的選擇) ROCE(儒仕),用心為每一位電子人!Xilinx7系列普及講座,架構(gòu)師設(shè)計(jì)方案模板,交流學(xué)習(xí) 內(nèi)容請(qǐng)下載附件pdf,更多內(nèi)容請(qǐng)登錄ww..rocetech..co
    發(fā)表于 04-30 16:41

    后臺(tái)架構(gòu)師-JAVA

    高薪聘北京的后臺(tái)架構(gòu)師-JAVA工作職責(zé);1.提升系統(tǒng)架構(gòu)的穩(wěn)定性,可靠性 2.用docker容器技術(shù)改造現(xiàn)有架構(gòu)任職資格;1. 3-5年以上互聯(lián)網(wǎng)公司開發(fā)工作經(jīng)驗(yàn),代碼編寫規(guī)范,編程基礎(chǔ)扎實(shí)
    發(fā)表于 06-20 17:24

    關(guān)于架構(gòu)師的詳細(xì)介紹

    溝通能力被排在架構(gòu)師能力的第一位,它既是架構(gòu)師入門能力,也是最難用量化標(biāo)準(zhǔn)來的能力。本文將為大家介紹架構(gòu)師——能說會(huì)道的程序員。
    發(fā)表于 07-11 07:20

    架構(gòu)師的能力鍛煉

    架構(gòu)師每天都需要做選擇題。什么選擇?怎么做選擇?架構(gòu)師需要進(jìn)行怎樣的學(xué)習(xí)、培訓(xùn)和鍛煉來進(jìn)行正確的選擇?讀了本篇文章,你會(huì)對(duì)架構(gòu)師為什么會(huì)需要權(quán)衡取舍以及妥協(xié)的能力有一個(gè)更加深刻的印象,并對(duì)于如何鍛煉這個(gè)能力有一個(gè)初步的認(rèn)識(shí)。
    發(fā)表于 07-11 08:29

    架構(gòu)師最重要的是什么

    軟件架構(gòu)師的定義乃至所需要的特質(zhì)歷來眾說紛紜。下面從一些另類的角度來做點(diǎn)分析。
    發(fā)表于 07-15 08:12

    好的架構(gòu)師為什么是出色的程序員

    一個(gè)優(yōu)秀的軟件架構(gòu)師,首先一定是一個(gè)出色的程序員,這是本篇文章的議題。從本文我們可以了解到一個(gè)架構(gòu)師的工作是什么,容易遇到的問題是什么,因此為什么必須是一個(gè)出色的程序員。
    發(fā)表于 07-17 07:03

    女性會(huì)更適合做架構(gòu)師?

    人們往往發(fā)現(xiàn)優(yōu)秀的數(shù)學(xué)家、物理學(xué)家以及軟件架構(gòu)師有著很多相似的素質(zhì),甚至往往能夠一人精通這好幾個(gè)領(lǐng)域,其中很重要的原因就是這個(gè)抽象思維的能力。架構(gòu)師們潛意識(shí)中會(huì)覺得女性更適合做架構(gòu)師?讓我們看看這是為什么。
    發(fā)表于 07-17 06:15

    怎樣成為軟件架構(gòu)師

    Leader也并無二致,也就是一個(gè)軟件團(tuán)隊(duì)的核心設(shè)計(jì)者和決策人。作為一個(gè)軟件團(tuán)隊(duì)的領(lǐng)頭人,架構(gòu)師應(yīng)該具備哪些能力、素質(zhì)和經(jīng)驗(yàn)?zāi)兀?/div>
    的頭像 發(fā)表于 10-19 09:55 ?3035次閱讀

    怎樣成為一名資深Java架構(gòu)師

    要想往架構(gòu)師的方向發(fā)展首先要知道架構(gòu)師是什么?
    的頭像 發(fā)表于 10-17 09:03 ?3293次閱讀

    數(shù)據(jù)架構(gòu)師的職責(zé)有哪些

    架構(gòu)師按照專注領(lǐng)域不同,可分為企業(yè)架構(gòu)師、基礎(chǔ)結(jié)構(gòu)架構(gòu)師、特定技術(shù)架構(gòu)和解決方案架構(gòu)師等,專職架構(gòu)師
    的頭像 發(fā)表于 04-04 16:24 ?3980次閱讀

    開發(fā)工程架構(gòu)師的區(qū)別

    架構(gòu)師是程序員的職業(yè)生涯發(fā)展的一個(gè)方向,很多架構(gòu)師都是從開發(fā)人員逐步過渡來的,程序員想要成為架構(gòu)師,平時(shí)就應(yīng)該身負(fù)“架構(gòu)師”職責(zé),用架構(gòu)師
    的頭像 發(fā)表于 04-04 16:35 ?1.4w次閱讀

    什么是 SoC 設(shè)計(jì)中的系統(tǒng)架構(gòu)師?

    您知道系統(tǒng)架構(gòu)師在片上系統(tǒng) (SoC) 設(shè)計(jì)中的具體工作嗎?如果您已經(jīng)認(rèn)識(shí)或經(jīng)驗(yàn)豐富的系統(tǒng)架構(gòu)師,那么可能無需進(jìn)一步閱讀。但是,如果您是我們眾多正在探索該行業(yè)機(jī)會(huì)的年輕讀者之一,請(qǐng)繼續(xù)閱讀,看看這是
    的頭像 發(fā)表于 07-18 16:26 ?2229次閱讀
    什么是 SoC 設(shè)計(jì)中的系統(tǒng)<b class='flag-5'>架構(gòu)師</b>?

    阿里專家:架構(gòu)師是一個(gè)什么樣的角色

    架構(gòu)其實(shí)是每個(gè)業(yè)務(wù)線都有,有些技術(shù)同學(xué)本身也是架構(gòu)師的角色。阿里很早以前是專門有架構(gòu)師崗位,專門的去做架構(gòu),但是做著做著架構(gòu)師就做沒了。
    的頭像 發(fā)表于 03-14 09:25 ?939次閱讀

    初級(jí)自動(dòng)駕駛架構(gòu)師應(yīng)該學(xué)習(xí)哪些知識(shí)

    隨著自動(dòng)駕駛技術(shù)的成熟,對(duì)系統(tǒng)架構(gòu)師的需求逐漸增加。自動(dòng)駕駛系統(tǒng)架構(gòu)師負(fù)責(zé)設(shè)計(jì)整個(gè)系統(tǒng)的結(jié)構(gòu)、組件、接口和數(shù)據(jù)流;需要協(xié)調(diào)不同領(lǐng)域的專業(yè)知識(shí),確保系統(tǒng)的可靠性、安全性和性能??傊?,自動(dòng)駕駛系統(tǒng)
    的頭像 發(fā)表于 06-20 21:45 ?525次閱讀

    中級(jí)自動(dòng)駕駛架構(gòu)師應(yīng)該學(xué)習(xí)哪些知識(shí)

    隨著自動(dòng)駕駛技術(shù)的成熟,對(duì)系統(tǒng)架構(gòu)師的需求逐漸增加。自動(dòng)駕駛系統(tǒng)架構(gòu)師負(fù)責(zé)設(shè)計(jì)整個(gè)系統(tǒng)的結(jié)構(gòu)、組件、接口和數(shù)據(jù)流;需要協(xié)調(diào)不同領(lǐng)域的專業(yè)知識(shí),確保系統(tǒng)的可靠性、安全性和性能。總之,自動(dòng)駕駛系統(tǒng)
    的頭像 發(fā)表于 06-20 21:47 ?456次閱讀
    主站蜘蛛池模板: 你懂得视频在线 | 欧美性xx18一19| 伊人久久大香线蕉电影院 | 国产伦子系列视频6 | 啪啪福利视频 | 亚洲毛片基地4455ww | 哪里可以看免费毛片 | 88av在线看| 色老头在线精品视频在线播放 | 就去色播 | 亚洲欧洲精品成人久久曰影片 | 男女爱爱免费高清 | 夜夜夜夜爽 | 国产精品 视频一区 二区三区 | 日本免费一区二区三区视频 | 婷婷综合五月中文字幕欧美 | 94久久国产乱子伦精品免费 | 天天干天天操天天插 | 久久久久久久蜜桃 | 成 人 a v黄 色 | 99国产在线| 狠狠色狠狠色综合久久一 | 扒开末成年粉嫩的流白浆视频 | 亚洲国产成人久久一区www | 奇米奇米 | 免费观看午夜在线欧差毛片 | 网站免费黄| 午夜视频在线观看国产 | 天天干天天插天天操 | 男校霸把男校草玩出水男男 | 中文字幕天堂 | 双性受粗大撑开白浊 | 欧美日韩在线成人看片a | 欧美一级在线免费观看 | 最近国语视频免费观看在线播放 | 美女扒开尿口给男人桶视频免费 | 国产美女特级嫩嫩嫩bbb | 国产在线视频www色 国产在线视频欧美亚综合 国产在线视频网站 | 思思久99久女女精品 | 免费在线播放毛片 | 国产农村乱色xxxx |