在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

為什么算法工程師每天都在搞數據?

工程師人生 ? 來源:以嵐聽風 ? 作者:以嵐聽風 ? 2021-01-08 10:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這是一個數據大爆炸的時代。

根據IDC 發布的《數據時代2025》白皮書,全球數據量大約每兩年就將翻一倍。到2025年,全球數據總量將攀升至163ZB。而且自動駕駛、物聯網等新技術正在不斷推動數據量的爆炸。每輛自動駕駛汽車每秒就會產生 6-8GB 的數據,現在國內一線城市的攝像頭數量都在百萬級別,每時每刻產生大量的數據。

好在,機器學習可以成為處理大規模數據的利器。數據是人工智能的燃料,機器學習的發展,就是伴隨著數據處理難度和復雜性的升級而不斷升級。如何更好的幫機器學習開發者打通數據屏障,已經成為領先的人工智能企業的重要課題。

在不久前舉行的亞馬遜re:Invent大會上,AWS共發布180項新的服務和功能,其中,一系列用機器學習加速數據分析的服務備受關注。全托管的機器學習服務平臺Amazon SageMaker發布了九項新功能,其中與數據處理直接相關的就有三個。此外,AWS還將機器學習融入數據庫分析領域,賦能數據庫分析師。當機器學習與數據分析緊密融合,將解決哪些痛點?

為什么算法工程師每天都在搞數據?

很多人眼中,機器學習算法工程師的日常是這樣的:選擇并優化算法、訓練與調優模型、部署模型與驗證模型。實際上,算法工程師大約有70%的時間是花在數據上的,花在模型和調參上的只有不到20%,這種現狀引發了不少開發者的共鳴。

為什么會這樣?在機器學習過程中,原始數據是不能直接用來訓練模型的,需要復雜的處理流程。模型訓練所需的數據通常來自不同類型的來源,并且格式多樣。這意味著開發人員必須花費相當多的時間提取和規范這些數據。

Amazon SageMaker是幫助開發者快速建立、訓練和部署機器學習模型的平臺,旨在簡化開發流程,縮短開發時間,讓開發者將更多精力放在最核心的模型訓練上。

此前,AWS發布的Amazon SageMaker Ground Truth 這個功能可以通過主動學習自動為輸入的數據添加標簽。主動學習是一種機器學習方法,它會識別需要人工添加標簽的數據以及可以由機器添加標簽的數據。與人工為整個數據集添加標簽相比,Ground Truth最高可減少 70%的成本,并縮短添加標簽的時間。

為了進一步簡化機器學習過程中數據處理方面的復雜性,今年re:Invent大會,Amazon SageMaker推出了兩個全新的功能,分別幫助算法工程師簡化數據處理和進行特征管理。

Amazon SageMaker Data Wrangler 提供了更易用的數據預處理,大大簡化了數據準備和特征工程的工作。Data Wrangler支持從各種數據存儲中一鍵導入所需數據,其包含超過 300 個內置的數據轉換器,可以幫助客戶在無需編寫任何代碼的情況下,對特征進行規范化、轉換和組合。

Amazon SageMaker Feature Store是用來存儲、更新、檢索和共享機器學習特征的工具。目前,這項特征可以被保存到Amazon S3中。

Feature Store解決的痛點是,大多數特征并不是只用于一個模型,而是被多個開發人員和數據科學家重復用于多個模型中。此前,工程師只能自行開發應用程序來跟蹤管理特征,但工作量很大而且容易出錯。有了Feature Store,用于訓練的大批量特征,以及用于推理的小批量特征子集,都可以保持特征的一致性和更新的及時性。

數據偏見不可避免嗎?

人類通常是非理性的,有很多認知偏差,不能準確地認知自身及外部環境的真實狀態。在人們信息收集、信息加工、信息輸出和信息反饋的各個階段,都會產生認知偏差。機器學習也會產生偏見,這些偏見廣泛存在于機器學習的各個環節,包括數據偏見、算法偏見等等。

數據偏見是指人們在工作中,由于各種原因不經意把并非完整客觀的數據進行收集并處理,而使得結果產出發生“偏見”。數據偏見是機器學習中一種普遍的難題,通常會導致數據集的某些元素比其他元素具有更大的權重或表示。常見的數據偏見有樣本偏差、排除偏差、測量偏差等等。

有偏見的數據集會導致分析模型的結果偏斜,準確性低甚至分析錯誤。比如一個主要用白種人人臉數據庫訓練出來的面部識別系統,對不同種族的人的識別準確度要低得多。

Amazon SageMaker Clarify這個新功能可以在整個機器學習工作流中進行偏差檢測和模型解釋。此前,開發人員通常使用開源工具檢測統計偏差,但這需要大量的人工編程,而且經常容易出錯。Clarify讓開發人員在數據準備階段就能發現數據偏差。目前,Clarify 已集成到 Data Wrangler,它運行了一系列基于特征數據的算法,用以識別數據準備過程中的偏差,并且清晰描述可能的偏差來源及其嚴重程度。

此外,隨著機器學習模型越來越多地幫助人類進行決策分析,人們對機器學習的可解釋性的要求越來越高??山忉屝允侵溉祟惸軌蚶斫鉀Q策原因的程度。如果人們能夠更多地了解模型的決策過程(原因和方式),就能增加對模型的信任。歐盟在 GDPR(GeneralData Protection Regulation)條例中明確要求,當采用機器做出針對某個體的決定時,比如自動拒絕一個在線信貸申請,該決定必須符合一定要求的可解釋性。

Amazon SageMaker Clarify的另一大價值在于提供了數據模型的可解釋性。“它能幫助你去分析哪些特征對模型的預測更重要,特征和模型之間的關系不再像原來是黑盒子,而是有更強的透明度。” AWS大中華區云服務產品管理總經理顧凡表示。

數據庫分析師怎么用好機器學習?

數據分析和機器學習有很多重合之處。

機器學習很高深,但尚處早期,受眾有限。今年,AWS在機器學習領域的一大動作就是“擴圈”,尋找更廣泛的“圈外”開發者加入進來,使他們基于既有知識體系就輕松上手。AWS機器學習的“擴圈”正是從與數據分析的結合開始。

相比機器學習開發者,數據庫開發者和數據庫分析師是一個更龐大的專業群體。他們是否需要學習機器學習算法開發,才能享用機器學習帶來的便利?AWS認為,完全不必。

2020亞馬遜re:Invent大會上,AWS全球機器學習副總裁Swami Sivasubramanian 一口氣發布了一系列產品服務,包括Amazon Aurora ML、Amazon Athena ML、Amazon Redshift ML、Amazon Neptune ML、Amazon QuickSight Q,分別把機器學習能力融進了關系型數據庫、Amazon S3的 SQL 查詢、數據倉庫、圖數據庫、商業智能等領域。數據分析人員只需使用早已爛熟的 SQL 語句,就能進行連帶機器學習功能的操作。

以 Amazon Aurora ML 為例,當用戶通過 SQL 查詢客戶信息以試圖找到一些負面反饋時,Amazon Aurora ML 會自動調度 Amazon Comprehend 這樣的 AI 服務來返回具備 AI 支持的查詢結果。

機器學習尚處在早期階段。據德勤發布的《全球人工智能發展白皮書》預測,到2025年,世界人工智能市場規模將超過6萬億美元。可以預見,在應對數據挑戰方面,機器學習提供給開發者的工具集將日益豐富,機器學習開發的門檻將越來越低。
編輯:hfy

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    88

    文章

    34868

    瀏覽量

    277596
  • 人工智能
    +關注

    關注

    1805

    文章

    48932

    瀏覽量

    248247
  • 機器學習
    +關注

    關注

    66

    文章

    8499

    瀏覽量

    134391
  • 數據分析
    +關注

    關注

    2

    文章

    1472

    瀏覽量

    34934
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    做了電子工程師之后,最好拍的視頻出現了#硬件設計 #電子DIY #電子工程師

    電子工程師
    安泰小課堂
    發布于 :2025年06月24日 17:45:57

    (仰天長嘯)為什么受傷的總是硬件工程師...#MDD#MDD辰達半導體 #電子工程師

    電子工程師
    MDD辰達半導體
    發布于 :2025年04月27日 18:21:47

    問,成為硬件工程師需要幾只手?#硬件工程師 #YXC晶振 #揚興科技 #搞笑

    硬件工程師
    揚興科技
    發布于 :2025年04月25日 17:15:37

    硬件工程師:回答我!#回答我 #硬件工程師 #YXC晶振 #揚興科技

    硬件工程師
    揚興科技
    發布于 :2025年03月25日 18:46:59

    一招拿捏電子工程師#被AI拿捏了 #電子工程師 #電子電工

    電子工程師
    安泰小課堂
    發布于 :2025年03月25日 17:30:51

    工程師應該掌握的幾種正確電容放電姿勢

    又有工程師被電傷了! 看來這是電子工程師,尤其是平時好奇心太強拆解的或開關電源工程師的家常
    的頭像 發表于 12-04 09:36 ?5201次閱讀
    <b class='flag-5'>工程師</b>應該掌握的幾種正確電容放電姿勢

    圖像算法工程師的利器——SpeedDP深度學習算法開發平臺

    隨著人工智能的興起,AI工程師特別是基于圖像的算法工程師日益成為炙手可熱的香餑餑。特別是在一些行業市場例如工業領域等行業領域,需要根據具體場景對檢測識別算法進行不斷地優化完善,以達到更
    的頭像 發表于 11-08 01:06 ?794次閱讀
    圖像<b class='flag-5'>算法</b><b class='flag-5'>工程師</b>的利器——SpeedDP深度學習<b class='flag-5'>算法</b>開發平臺

    FPGA算法工程師、邏輯工程師、原型驗證工程師有什么區別?

    ,共同進步。 歡迎加入FPGA技術微信交流群14群! 交流問題(一) Q:FPGA中的FPGA算法工程師、FPGA邏輯工程師、FPGA原型驗證工程師三者有什么區別? A:FPGA
    發表于 09-23 18:26

    正是拼的年紀|65歲電子工程師上班VLOG #65歲退休 #電子工程師 #搞笑 #上班vlog

    電子工程師
    安泰小課堂
    發布于 :2024年07月25日 11:31:02

    用二創,1:1復刻工程師的職場現狀

    工程師
    揚興科技
    發布于 :2024年07月19日 18:30:07
    主站蜘蛛池模板: 亚洲黄页网站 | 黄 色 免费网 站 成 人 | 国产精品第一页在线观看 | 护士巨好爽好大乳 | 天天添天天操 | www.亚洲成人 | 久久成人国产精品免费 | 91p0rn永久备用地址二 | 亚洲一区二区三区四区在线观看 | 欧美一级免费片 | 色五夜婷婷 | 欧美一级精品高清在线观看 | 毛片综合 | 天堂最新版在线地址 | 四虎影视最新地址 | 天堂在线视频网站 | 中文字幕第一 | 男人呻吟双腿大开男男h互攻 | 国产毛片久久久久久国产毛片 | 乱色伦短篇小说 | 日本免费精品视频 | 色噜噜狠狠狠综合曰曰曰 | 精品国产中文一级毛片在线看 | 黄网站色视频免费观看 | 天天操穴| 一级黄色毛片免费看 | 日韩一级黄| 亚洲国产精品久久久久婷婷软件 | 视频色版 | 天天做天天添天天谢 | 欧美不卡视频在线观看 | 四虎影院最新地址 | 日日噜噜噜夜夜爽爽狠狠视频 | 欧美伊人久久大香线蕉综合69 | 久久看免费视频 | 美剧免费在线观看 | 亚欧乱色束缚一区二区三区 | 成人黄性视频 | 加勒比精品久久一区二区三区 | 午夜黄大色黄大片美女图片 | 国产成人v爽在线免播放观看 |