數據科學的發展日新月異,機器學習的角色正從數據科學的混合角色過渡到更多的工程或面相分析的角色,主要是以下的因素促成了這種變化。
1.機器學習模型更多地被應用到生產系統中,需要數據科學家具有比以前更深入的技術技能。
2.商業產品和用戶行為的變化步伐加快,對自動化的需求也增加。
3.還有出于數據合規和監管的要求,增加了對數據的可追溯性和可解釋性的預測和決策的需求。
這些變化的因素也導致了數據科學家使用的工具發生了變化。使得他們更多地利用云,自動化,可解釋性和可重復過程的方向去發展。
基于云的機器學習。云基礎架構和Kubernetes改變了數據科學家進行機器學習的方式。從能夠將預構建的解決方案用作Saas應用程序,到能夠在Kubernetes上運行完整的機器學習堆棧。
AutoML和編排。AutoML簡化了訓練模型,提供了一種自動的方法來進行數據準備,特征工程,超參數優化或模型的選擇。
可解釋且可重復的ML。在過去幾年中,出現了一些庫和工具來幫助理解模型預測及其背后的權重并賦予其含義。如whatiftools,Lime,Shap或Manifold之類的工具可以幫助數據科學家來實現這一目標。
基于云的機器學習
向云和Kubernetes的遷移是時下的主流方向,這推動了機器學習工程師對更多DevOps或數據操作功能的需求。
深度學習的快速發展推動了機器學習的進步,但深度學習需要更多的計算資源,它的利用率隨工作負載變化很大,這迫使Tensorflow執行程序在Kubernetes上運行來支持更彈性和可擴展的基礎架構。
另一個因素是機器學習在生產環境中的重要性日益提高。這種轉變又增加了在原型堆棧和生產之間緊密結合的需求,并借助各種云的平臺,比如AWS SageMaker、Google Cloud ML Engine。這些工具提供了如模型部署和API配置之類的功能,從而簡化了流程將模型推向生產的過程。
AutoML和機器學習工作流程
具有生產型機器學習系統的重要性的提高反過來加速了從培訓到部署的整個機器學習價值鏈對自動化的需求。自動化允許更快地迭代和改進模型。
AutoML提供了圍繞模型訓練過程的自動化層,可以處理其一些重復的任務。它可以處理如超參數優化,功能和模型選擇之類的任務。現在,像Tpot或AutoKeras之類的庫,以及大多數云提供商的機器學習即服務都將AutoML作為其解決方案的一部分。
對自動化的需求也增加了對工具進行編排的不同部分的需求。工作流工具如,Airflow,Kubeflow,MLFlow和MetaFlow是用于幫助實現這一目標的一些關鍵工具。他們負責將整個機器學習過程作為一條流水線來處理,幫助協調從數據采集到模型服務的端到端流程。
可解釋且可重復的ML
合規和監管影響了我們構建機器學習模型的方式。他們推動了可解釋和可復制的模型。
在可解釋的方面,已經出現了一系列工具,可以幫助數據科學家從其模型中獲得意義。這些工具評估不同的方案,分析變量如何互操作,并提供儀表板以幫助解釋模型預測。whatiftools,Lime,Shap或Manifold是應對這一挑戰的工具。
除了提供可靠的方法來調試模型的優點外,可復制性是受法規影響的另一個方面。總有可能使用工作流工具創建可重復的機器學習管道,但仍出現了一些特定的工具來簡化這個過程。
DVC,Dolt,Weight and Biases(WANDB)和Dags Hub等是一些專門的工具,使構建模型,可重復的方式更簡單。DVC負責模型和數據集的版本控制,而Dolt嚴格限于數據集本身。WANDB和Dags Hub則專注于跟蹤模型構建/訓練的權重和結果。
總結
機器學習工具,已經不僅僅局限于利用一些預測庫和Jupyter筆記本。現在,進行數據科學需要掌握更廣泛的工具集,其中包括云,工作流工具,解釋和版本控制工具。這些增加的現代化工具應有助于數據科學開展更多的工程或業務功能。
-
機器學習
+關注
關注
66文章
8428瀏覽量
132842 -
現代化
+關注
關注
0文章
18瀏覽量
6714 -
數據科學
+關注
關注
0文章
165瀏覽量
10081
發布評論請先 登錄
相關推薦
雷曼光電助力校園現代化建設
智慧農業平臺:推動農業現代化的科技力量
【米爾NXP i.MX 93開發板試用評測】3、NXP的MCU工程目錄結構和源碼分析
多級寬帶放大器各級之間pcb獨立分開,信號線用sma線相接,電源線用普通銅線導線,有助于抗干擾嗎?
關于一些有助于優化電源設計的新型材料
MSPM0-高級控制計時器有助于實現更好的控制和更好的數字輸出
![MSPM0-高級控制計時器<b class='flag-5'>有助于</b>實現更好的控制和更好的數字輸出](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
現代化農業生產中,立柱機器人不同規格肥料碼垛
![<b class='flag-5'>現代化</b>農業生產中,立柱<b class='flag-5'>機器</b>人不同規格肥料碼垛](https://file1.elecfans.com/web2/M00/05/20/wKgaombMKeuAGhRWAAIEf0FAxBw197.png)
RISC-V適合什么樣的應用場景
機器學習中的數據預處理與特征工程
愛普生的高精度傳感技術有助于監控自動化
![愛普生的高精度傳感技術<b class='flag-5'>有助于</b>監控自動<b class='flag-5'>化</b>](https://file1.elecfans.com/web2/M00/F4/6A/wKgaomZ81B-AB5NTAACm9DkpDgw565.png)
評論