Python開源機器學習建模庫PyCaret,最近發布了2.0版本。
這款堪稱調包俠神器的模型訓練工具包,幾行代碼就能搞定模型編寫、改進和微調。 從數據預處理到模型效果對比,PyCaret都能自動實現。 所以,PyCaret長啥樣,2.0的版本又做了什么改進? 一起來看看。
機器學習庫的煉丹爐
PyCaret說白了,有點像一個機器學習庫的煉丹爐。 以下是它熔進來的部分庫:
數據處理:pandas、numpy…
數據可視化:matplotlib、seaborn…
各種模型:sklearn、xgboost、catboost、lightgbm…
嗯…sklearn直接就給封裝進去了,調用很方便。 然后,PyCaret這個煉丹爐,自帶功能“按鍵”(定義了一些函數),包括數據預處理、模型訓練、模型集成、模型分析、模型測試等。 只需要寫上幾行Python代碼,這些功能“按鍵”就會被按下,PyCaret自動幫你實現。 至于實現過程中需要調用什么基本庫,哪些可以放棄絲毫不需要考慮。 從下圖來看,僅僅是預處理階段,就包含樣本劃分、數據預處理、缺失值處理、歸一化、獨熱編碼等功能。
如果要實現必需的預處理功能,需要多少行代碼來調用? 答案是0行。 因為,當使用setup()進行初始化時,PyCaret將自動執行機器學習必需的數據預處理步驟,包括缺失值插入、分類變量編碼、標簽編碼、數據集拆分等。 例如,在數據處理前,你發現數據集有空缺的地方(下圖中NaN部分)。
別怕,PyCaret會自動分析數據,進行缺失值插入。
預處理后,PyCaret還貼心地幫你準備了各種模型。 從模型訓練、選用到測試,只有你想不到的,沒有它做不了的。 如果已經將數據處理好,并交給PyCaret,一個compare_models函數就能訓練庫中的所有模型,進行結果比較后,標出最佳模型。 如下圖,各種模型指標的最優值會被一鍵標黃,就看你怎么選擇了。
選好后,想對模型進行一點優化?一個tune_model函數就能幫你搞定。 或者,不想僅僅選用一個模型? PyCaret也準備了模型集成的函數,blend和stack任你選。 除此之外,模型參數的分析(包括可視化)也只需要幾行代碼就能實現,功能非常強大。
最后,PyCaret還能為新數據提供迭代預測結果,下面的效果,同樣只需要幾行代碼就能完成。
那么,這次PyCaret增強,進行了什么改進呢?(項目見傳送門)
PyCaret 2.0增強版
這是PyCaret 2.0的6大特色,有些在1.0就有了,有些功能如實驗日志,看起來是更新后新加入的功能。
實驗日志,對于模型的調整不可或缺。 例如,想要將訓練過程中模型的精度變化可視化,通常我們會在模型中加入生成日志文件的函數,生成一個更直觀的時間-精度變化圖。 PyCaret 2.0加入了實驗日志的功能,自動幫你跟蹤模型實驗過程中的各項指標,以及生成視覺效果等。 不僅如此,在2.0中,模型生成到預測的所有工作流程,現在可以被設計了。 也就是說,你可以設置一條自定義流水線,在這個過程中,從訓練到測試,所有模塊的功能都會被自動化完成。 甚至,PyCaret 2.0還提供了機器學習模型前端軟件的搭建工具。 以及,PyCaret 2.0現在幾乎支持所有算法的并行處理,xgboost和catboost模型也支持GPU訓練。
除此之外,還有一些新的程序功能,等待你去發現。
-
代碼
+關注
關注
30文章
4888瀏覽量
70271 -
機器學習
+關注
關注
66文章
8492瀏覽量
134122 -
python
+關注
關注
56文章
4825瀏覽量
86223
原文標題:調包俠神器2.0發布,Python機器學習模型搭建只需要幾行代碼
文章出處:【微信號:DBDevs,微信公眾號:數據分析與開發】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
如何在Ubuntu 24.04上運行5.4.47版本?
芯來科技發布Nuclei Studio 2025.02版本

國地中心將推出人形機器人“Deep Snake”2.0版本
如何使用Python構建LSTM神經網絡模型
USB4 2.0版本的重大更新
如何幫助孩子高效學習Python:開源硬件實踐是最優選擇
pycharm如何調用pytorch
Python建模算法與應用
opencv-python和opencv一樣嗎
ROS讓機器人開發更便捷,基于RK3568J+Debian系統發布!
天數智芯主導的DeepSpark開源社區發布百大應用開放平臺24.06版本

評論