知識點(diǎn)離散數(shù)據(jù)的處理
若數(shù)據(jù)存在“序”關(guān)系則連續(xù)化,如:
離散 | 連續(xù) |
高/m | 高 |
10 | 1 |
5 | 0.5 |
1 | 0 |
否則,轉(zhuǎn)為K維向量代碼可見本實(shí)例中的Pd.get_dummies(X['state'])。但要注意虛擬變量,例如“性別”變量,可虛擬出“男”和”女”兩個變量,
男 | 1 | 0 |
女 | 0 | 1 |
這里所說的虛擬變量陷阱是兩個或多個變量高度相關(guān)的情況,簡單地說,一個變量可以從其他變量中預(yù)測出來,那么這里就有一個重復(fù)的類別,可以去掉一個變量,節(jié)約內(nèi)存計(jì)算機(jī)內(nèi)存空間,減少計(jì)算量。
本實(shí)例用的數(shù)據(jù)集是50_Startups.csv,
代碼如下:
importnumpyasnp pipinstallmatplotlib importmatplotlib.pyplotasplt importpandasaspd dataset=pd.read_csv("D:/python/50.csv") X=dataset.iloc[:,0:4]#0到3列的所有行數(shù)據(jù)(共4列) X["State"].unique() y=dataset.iloc[:,4]#第5列的所有行數(shù)據(jù) pd.get_dummies(X['State'])#離散數(shù)據(jù)轉(zhuǎn)為K維向量 statesdump=pd.get_dummies(X['State'],drop_first=True)#去掉X['State']的第一列數(shù)據(jù)(減少虛擬變量) X=X.drop('State',axis=1) X=pd.concat([X,statesdump],axis=1) from sklearn.model_selection import train_test_split x_train,x_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=0) x_train #引入線性回歸模型擬合訓(xùn)練集 from sklearn.linear_model import LinearRegression regressor=LinearRegression() model=regressor.fit(x_train,y_train) #預(yù)測測試集的結(jié)果 y_predict=regressor.predict(x_test) from sklearn.metrics import r2_score# score1=r2_score(y_test,y_predict) model.coef_#多元函數(shù)的系數(shù) model.intercept_#函數(shù)的截距 model.score(X,y)
審核編輯:劉清
-
向量機(jī)
+關(guān)注
關(guān)注
0文章
166瀏覽量
21227 -
虛擬機(jī)
+關(guān)注
關(guān)注
1文章
966瀏覽量
29371 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8503瀏覽量
134635 -
python
+關(guān)注
關(guān)注
56文章
4827瀏覽量
86771 -
線性回歸
+關(guān)注
關(guān)注
0文章
41瀏覽量
4444
原文標(biāo)題:機(jī)器學(xué)習(xí)-多元線性回歸數(shù)據(jù)集(50_Startups.csv)及代碼實(shí)現(xiàn)
文章出處:【微信號:智行RFID,微信公眾號:智行RFID】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
評論