在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據科學家遇到的常見挑戰及方法

如意 ? 來源:讀芯術 ? 作者:讀芯術 ? 2021-02-08 16:03 ? 次閱讀

作為數據科學家,我在很多公司工作過,也遇到了很多問題和挑戰。事實上,很多人都會經歷這些挑戰,就不同情況而言,也會有多種可行的解決方案。我將談談我曾面臨的一些最常見或最困難的挑戰。

業務問題描述不當

只要有一個工作人員出錯,你就會面臨這個挑戰。數據科學專家的主要工作之一就是做業務問題描述——這也就是起初使用數據科學的原因。

實際上,多數情況下描述不是某個數據科學專家自己,而是整個團隊。團隊里通常包括利益相關者,比如產品經理。但是,團隊內可能出現技術脫節,任一方都可能對業務問題描述不當。

產品經理可能會說:“我們要提更多建議,大家才能買的更多”,而數據科學專家可能會說:“向大家推薦產品的時候,超過80%的情況下我們要有95%的把握?!?/p>

這兩種問題描述總體來講都很好,但都不夠細化,或者只是勾勒出了問題的輪廓。問題描述是要從中找出解決方案,但是本身并不是解決方案。

以下是一個更好的業務問題描述問題的例子:“顧客平均每個訂單只買一件東西”。

就是這么簡單。一開始雙方都想方設法將描述復雜化,但現在這樣更高效。雖然沒有解決方案,但人人都能看懂這種直接、通俗易懂的描述。

示例描述說明一件東西不夠,那么解決方案可能就是如何讓顧客更可能買一件以上的東西。一種數據科學解決方案就是使用機器學習推薦系統。在工作中不要好高騖遠,而要專注于眼下的實際問題,這很重要。

數據失衡

任何真正與數據打交道的人大多都會遇到數據失衡的問題。比如,遇到分類問題時使用邏輯回歸給新數據賦值0或1。目標變量預計0和1各占50%的可能。然而,結果完全出乎預料。

如果試著將一種新動物歸類為狗或者貓,就需要貓狗各1000列的訓練數據。這樣,模型才足夠辨別二者的不同之處。如果訓練數據中貓有1900只,狗只有100只,那么就可能產生誤解,認為多數新動物都是貓,這是個很常見的問題。

可能的解決方案是使用其他補強少數部分的機器學習算法,或者創建新的綜合數據。有一種技術叫不均衡學習(imbalanced-learn),可以采用下列具體方法進行過采樣:

ADASYN算法(Adaptive Synthetic,自適應綜合過采樣)

BorderlineSMOTE算法

KMeansSMOTE算法

RandomOverSampler算法

SMOTNC算法

SVMSMOTE算法(Nominal andContinuous)

這些過采樣方法都非常有效,而且能解決數據不均衡問題。還有很多方法,比如欠采樣、二者相結合、組合法、Keras和TensorFlow的批量生成器。下面是過采樣操作的示例:

畫一幅二維視圖

繪制已知數據點

選擇一個已知點

找出最鄰近點

在鄰近點與原始數據點之間畫一條線

然后隨機將大頭針丟在這些線上

這就是新合成的過采樣數據

像RandomForest之類的一些機器算法函數庫的參數要指定均衡數據也很簡單。

過擬合

構建的數據科學模型將訓練數據解析的太透徹就會出現過擬合問題。模型接收了訓練數據中的詳細信息,也包括數據中的噪音,所以過于具體,而這在預測新的真實數據時是無用的,結果模型就無法做出正確推斷和歸納。模型的目的是處理好未見過的數據,所以要想辦法找到能處理好新數據的解決辦法并付諸使用。

交叉驗證

移除重復或相似特點

及早停止

正則化

集成法

非參數機器學習算法

使用更多數據訓練

特征不足

制定業務問題描述之后,通常還需要開始尋找數據,然后形成自己的特點,輸入到數據科學模型中作為訓練數據。對公司數據表了解的越多,就會發現還可以以其它縱列為新特征。不過,一開始特征有限的問題還有另一種解決辦法。

構建當前度量的統計數據。例如,一般具有“每位用戶點擊量”特征,就會停止。但也可以從如下某一縱列中創建新的度量:

每位用戶的平均點擊量

每位用戶的眾數點擊量

每位用戶75%百分位數點擊量

還有很多不同方式來描述該特征的范圍。

版本控制

數據科學家非常習慣獨自工作,喜歡對同一個重點項目創建20個不同版本的Jupyter Notebook。我們約定好了命名,但第二天就忘記了。然后,一切變得一團糟。但其實還有更好的方式——那就是Git和GitHub。

Git

GitHub

如果數量較少的話,還有其它自制辦法,比如用特殊數字方法(例:Notebook1,Notebook2)創建新版本。

這些工具可以通過創建區別于主干/代碼庫的獨立分支,幫你形成自己的代碼變化。然后就可以創建一個拉取請求來比較代碼變化,在獲得他人認可后并入原件。如此一來,你就不僅是在創建代碼評審,而且還允許大家注意到并更加了解你的特定代碼。

如你所見,數據科學家會面臨很多挑戰,我所談到的只是冰山一角。但這些問題是我經歷最多的,我認為應該重點討論的。希望我的方法能幫你順利解決這些問題。
責編AJX

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7249

    瀏覽量

    91364
  • 算法
    +關注

    關注

    23

    文章

    4702

    瀏覽量

    94968
  • 數據科學
    +關注

    關注

    0

    文章

    168

    瀏覽量

    10429
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    TI科學家談浮點DSP未來發展

    TI科學家談浮點DSP未來發展 自十多年前浮點數字信號處理器(DSP)誕生以來,便為實時信號處理提供了算術上更為先進的備選方案。不過,定點器件至今仍是業界的主流--當然低成本是主要原因。定點DSP每
    發表于 11-03 15:18

    科學家推出多種波動描記傳感器

    領導人、美國賓夕法尼亞大學的心理學家凱文-梅爾福稱:“多種波動描記-傳感器不論屬于何種類型,其功能都是用于測量人的緊張狀態的,而不是用來測謊的。得克薩斯大學科學家們發現的這種新方法很可能會為我們提供更多
    發表于 10-24 11:40

    生物電磁波揭密 場導發現(俄羅斯華裔科學家寫的腦控技術叢書)

    生物電磁波揭密場導發現(俄羅斯華裔科學家寫的腦控技術叢書)
    發表于 03-05 09:31

    通往數據科學家的崎嶇道路

    如果你曾經查看過數據科學家的崗位要求,你就知道它的職責范圍有多廣。有的數據科學家致力于自然語言處理、計算機視覺、深度學習,有的則從事A/B測試、產品分析。確定哪些工作適合自己,哪些不適
    的頭像 發表于 07-26 09:17 ?2882次閱讀

    哪些才是對數據科學家最迫切的技能呢?

    AngelList提供的是列出數據科學家崗位的公司數而不是崗位數。我把AngelList從所有分析里面排除掉了,因為其搜索算法似乎按照OR型的邏輯搜索進行,沒有辦法改成AND。如果你尋找的是“數據
    的頭像 發表于 11-19 18:14 ?3255次閱讀

    什么是數據科學家?需要認證嗎?

    得以清晰化?!盕leming指出,IBM目前雇傭了大約1.5萬名被定義為數據科學家的技術人員,預計數據科學家人數的增長速度超過其雇員總數的增長速度。
    的頭像 發表于 02-14 09:41 ?6959次閱讀

    介紹從數據分析師轉型為數據科學家的具體方法

    入門數據科學早已有許多優秀的博文可供參考,比如以下兩篇:《成為Jet.com數據分析師的自學之路》和《入門數據科學需掌握的基礎知識》,但是為
    的頭像 發表于 03-01 15:34 ?3313次閱讀

    數據科學家與機器學習工程師怎么區分

    十年來,我們一直在談論數據科學數據科學家。雖然在怎么才叫“數據科學家”的問題上始終存在著爭議,
    的頭像 發表于 05-18 11:24 ?3498次閱讀

    數據科學家常犯的10個編程錯誤

    數據科學家是“比軟件工程師更擅長統計學,比統計學家更擅長軟件工程的人”。
    的頭像 發表于 05-24 14:50 ?2865次閱讀

    數據科學家數據工程師的區別

    數據科學家和數據工程師的主要區別,可以用ETL和DAD的區別來解釋。
    的頭像 發表于 07-10 17:06 ?2936次閱讀

    企業如何解決數據科學家短缺詳細方法什么

     隨著企業以數據為中心的文化,以做出決策和規劃,數據科學家對全球企業的重要性日益增加。但是企業無法足夠快地聘請數據科學家,因為合格候選人仍然
    的頭像 發表于 04-18 10:31 ?3658次閱讀

    采訪資深數據科學家:成為數據科學家應具有的品質

    作為一門逐漸成熟的新興領域,與數據科學相關的很多領域開始變得備受青睞,比如數據工程,數據分析以及機器學習和深度學習。數據
    的頭像 發表于 06-30 11:28 ?2609次閱讀

    什么是數據科學家的最佳編程語言?

    每個數據科學學習者都最常問的問題:“ 什么是數據科學家的最佳編程語言?”。
    的頭像 發表于 07-05 11:32 ?2734次閱讀

    深入研究數據科學家使用的常見統計和分析技術

    數據科學技術如今已在許多組織中占有一席之地,數據科學家正迅速成為以數據為中心的組織最受歡迎的角色之一。
    的頭像 發表于 01-14 16:09 ?2209次閱讀

    中國聯通AI科學家廉士國入選全球前2%頂尖科學家榜單

    %頂尖科學家榜單是Elsevier和斯坦福大學John P.A. Ioannidis教授團隊合作的具有全球影響力的項目成果,為全球學術界提供了一個面向科學家長期科研表現的衡量指標,旨在更客觀、更真實地反映科學家全球影響力。榜單以
    的頭像 發表于 11-07 16:18 ?2981次閱讀
    主站蜘蛛池模板: www天天操 | 欧美一级免费在线观看 | 四虎看黄 | 欧美在线视 | 91学院派女神 | 黄色三级国产 | 日本拍拍拍 | 日本成人在线网址 | 在线观看免费视频一区 | h在线观看视频 | 视频精品一区二区三区 | 午夜视频在线免费看 | 久久夜色tv网站免费影院 | 国产综合成色在线视频 | 国产精品欧美精品国产主播 | 天天操天天拍 | 香蕉爱爱网 | 在线天堂中文有限公司 | 日韩一级片在线免费观看 | 四虎最新紧急入口4hu | 色香欲综合成人免费视频 | αv天堂 | 中文字幕一区二区三区乱码aⅴ | 天天天天色 | 狠狠色噜噜狠狠狠狠97 | 韩国韩宝贝2020vip福利视频 | japanese色系tube日本护士 | 奇米影视亚洲四色8888 | 天天躁日日躁成人字幕aⅴ 天天躁夜夜躁 | 污污视频在线免费看 | 免费一级毛片在级播放 | 日本在线不卡视频 | 在线观看日本亚洲一区 | 亚洲国产精品国产自在在线 | 欧美一卡二三卡四卡不卡 | 免费一级片视频 | 欧美性生交xxxxx久久久 | 天天爽夜夜爽一区二区三区 | 在线播放你懂 | 欧美片欧美日韩国产综合片 | 色综合色综合色综合色综合 |