資料介紹
Zillow(房產(chǎn)估價網(wǎng)站)和Kaggle最近組織了一項100萬美元的競賽來改進Zestimate(Zillow自行開發(fā)的一套計算機系統(tǒng))。此教程使用了H2O的AutoML生成解決方案的公共Domino項目。
新的Kaggle Zillow Price競賽獲得了大量的媒體關(guān)注。正如他們在競賽描述中說的,改進這一估計可以更準(zhǔn)確地影響美國近1.1億家庭的價值!
此教程采用的是一個腳本take_my_job.R,它使用了令人吃驚的H2O AutoML框架。
H2O的機器學(xué)習(xí)庫是行業(yè)的領(lǐng)導(dǎo)者,他們最近將AI推向大眾的是AutoML功能。通過單個函數(shù)調(diào)用,它可以并行地訓(xùn)練許多模型,將它們集合在一起,并構(gòu)建強大的預(yù)測模型。
代碼只有36行:
01library(data.table)
02library(h2o)
03
04data_path 《- Sys.getenv(“DOMINO_EARINO_ZILLOW_HOME_VALUE_PREDICTION_DATA_WORKING_DIR”)
05
06properties_file 《- file.path(data_path, “properties_2016.csv”)
07train_file 《- file.path(data_path, “train_2016.csv”)
08properties 《- fread(properties_file, header=TRUE, stringsAsFactors=FALSE,
09 colClasses = list(character = 50))
10train 《- fread(train_file)
11
12properties_train = merge(properties, train, by=“parcelid”,all.y=TRUE)
在前12行中,設(shè)置了開發(fā)環(huán)境,并將數(shù)據(jù)導(dǎo)入為R data.table對象。使用第4行中的Domino環(huán)境變量功能,無需對腳本中的任何路徑進行硬編碼,因為硬編碼路徑通常會導(dǎo)致重大挑戰(zhàn)。
在第12行,通過將屬性文件與訓(xùn)練數(shù)據(jù)集合并創(chuàng)建訓(xùn)練集,其中包含我們將要預(yù)測的logerror列。
14h2o.init(nthreads = -1)
15
16Xnames 《- names(properties_train)[which(names(properties_train)!=“l(fā)ogerror”)]
17Y 《- “l(fā)ogerror”
18
19dx_train 《- as.h2o(properties_train)
20dx_predict 《- as.h2o(properties)
21
22md 《- h2o.automl(x = Xnames, y = Y,
24 training_frame = dx_train,
25 leaderboard_frame = dx_train)
這個代碼塊是利用H2O的AutoML基礎(chǔ)設(shè)施所需要的!
在第14行,我們正在初始化H2O以使用與機器有核心一樣多的線程。第16和17行用于設(shè)置預(yù)測變量和響應(yīng)變量的名稱。在第19和20行,我們將我們的data.table對象上傳到H2O(首先可以避免使用h2o.importFile)。在第22-25行中,我們告訴H2O在訓(xùn)練數(shù)據(jù)集上建立我們可以使用RMSE作為早期停止度量的最好的模型。
27properties_target《- h2o.predict(md@leader, dx_predict)
28predictions 《- round(as.vector(properties_target$predict), 4)
29
30result 《- data.frame(cbind(properties$parcelid, predictions, predictions * .99,
31 predictions * .98, predictions * .97, predictions * .96,
32 predictions * .95))
33
34colnames(result)《-c(“parcelid”,“201610”,“201611”,“201612”,“201710”,“201711”,“201712”)
35options(scipen = 999)
36write.csv(result, file = “submission_automl.csv”, row.names = FALSE )
在第27行,我們使用訓(xùn)練有素的AutoML對象來預(yù)測我們的回應(yīng)。然后,我們將答案舍入為4位精度,構(gòu)建結(jié)果數(shù)據(jù)框架,設(shè)置名稱并寫出來。
掛羊頭賣狗肉,我們添加的只有1位是1%,收縮在每一行的LOGERROR,并假設(shè)Zillow的團隊總是使他們的模型更好一點。
在沒有任何輸入的情況下,這個包建立一個提供公開排行榜得分的模型0.0673569。這不驚人,但是考慮到我甚至沒有看過數(shù)據(jù),這是非常出色的。匯集H2O的算法以及靈活的可擴展計算和易于環(huán)境配置的Domino使該項目快速簡便!
自己動手嘗試
歡迎您分享這個公共項目,將其作為起點,然后操作它。只需點擊幾下,代碼和環(huán)境就可以在Domino上使用。
不幸的是,根據(jù)Kaggle的嚴(yán)格規(guī)定,我們無法為您提供數(shù)據(jù)。為了使用數(shù)據(jù),您將必須:轉(zhuǎn)到Kaggle數(shù)據(jù)頁并下載。
將其上傳到Domino數(shù)據(jù)項目或直接插入到您的分支項目中。
修改第4行take_my_job.R以設(shè)置文件的基本路徑。如果你只是把它放到你的項目中,只需將它設(shè)置為“。/”,如果你正在使用一個數(shù)據(jù)項目,只需修改我引用的環(huán)境變量。
雖然手動制作的解決方案在Kaggle排行榜上的得分明顯優(yōu)于這種解決方案,但仍然令人興奮的是,全自動化解決方案的效果相當(dāng)不錯。全自動數(shù)據(jù)科學(xué)的未來令人期待,我們迫不及待地繼續(xù)支持社區(qū)開發(fā)的驚人工具!
- PyTorch教程5.7之在Kaggle上預(yù)測房價
- C語言串口通信-源代碼pdf免費下載 24次下載
- 手機固件系統(tǒng)免費軟件程序下載 21次下載
- 基于圖論原理的互操作性模型改進方法 17次下載
- python設(shè)計一個簡單推薦系統(tǒng)的資料和完整代碼 14次下載
- 結(jié)合動態(tài)行為和機器學(xué)習(xí)的惡意代碼檢測方法 11次下載
- python文件讀取的源代碼免費下載 20次下載
- 安卓系統(tǒng)的源代碼免費下載 4次下載
- TAS5708評估板的電路原理圖免費下載 17次下載
- 學(xué)生信息管理系統(tǒng)的應(yīng)用程序和源代碼與工程文件免費下載 22次下載
- 如何使用改進GM模型進行房價預(yù)測模型資料說明 7次下載
- 如何通過pandas讀取csv文件指定的前幾行? 16次下載
- 代碼編寫器Studio的新的和改進的特性詳細概述 1次下載
- 一種改進算法的低功耗嵌入式系統(tǒng)代碼壓縮設(shè)計 0次下載
- 基于改進雷達圖法的光伏并網(wǎng)發(fā)電系統(tǒng)穩(wěn)態(tài)電能質(zhì)量綜合評估 0次下載
- 使用Python進行圖像處理 260次閱讀
- 代碼結(jié)構(gòu)分析 3720次閱讀
- Python版超市管理系統(tǒng)源代碼 1761次閱讀
- 壓縮空氣系統(tǒng)改進的思路分享 1535次閱讀
- 系統(tǒng)演示平臺簡化了從評估到原型設(shè)計的過渡 809次閱讀
- 代碼覆蓋率工具的重要性 1491次閱讀
- 如何在NVIDIA GPU上實現(xiàn)基于embedding 的深度學(xué)習(xí)模型 1901次閱讀
- VScode編譯器如何配置C/C++編譯環(huán)境 5662次閱讀
- 為什么給Java代碼加個空行class文件就識別不出來了 2767次閱讀
- 使用C語言實現(xiàn)萬年歷星期速算法的源代碼免費下載 3210次閱讀
- AirPods Pro的延遲改進測試 6408次閱讀
- 如何使用代碼清除STM32單片機上的PCROP 4163次閱讀
- Python爬取趕集網(wǎng)北京二手房數(shù)據(jù)&R對爬取的二手房房價做線性回歸分析 3935次閱讀
- 基于傳統(tǒng)雙LCL型WPT系統(tǒng)的改進型無線電能傳輸系統(tǒng)研究設(shè)計 3534次閱讀
- 70行代碼來打造MCU性能分析利器! 4161次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費下載
- 0.00 MB | 1490次下載 | 免費
- 2單片機典型實例介紹
- 18.19 MB | 92次下載 | 1 積分
- 3S7-200PLC編程實例詳細資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識別和講解說明
- 4.28 MB | 18次下載 | 4 積分
- 5開關(guān)電源原理及各功能電路詳解
- 0.38 MB | 10次下載 | 免費
- 6基于AT89C2051/4051單片機編程器的實驗
- 0.11 MB | 4次下載 | 免費
- 7藍牙設(shè)備在嵌入式領(lǐng)域的廣泛應(yīng)用
- 0.63 MB | 3次下載 | 免費
- 89天練會電子電路識圖
- 5.91 MB | 3次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費
- 4LabView 8.0 專業(yè)版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費
- 5555集成電路應(yīng)用800例(新編版)
- 0.00 MB | 33562次下載 | 免費
- 6接口電路圖大全
- 未知 | 30320次下載 | 免費
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費
- 8開關(guān)電源設(shè)計實例指南
- 未知 | 21539次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537791次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233045次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191183次下載 | 免費
- 7十天學(xué)會AVR單片機與C語言視頻教程 下載
- 158M | 183277次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138039次下載 | 免費
評論