數據清洗怎么做(一):準備工作
拿到數據表之后,先做這些準備工作,方便之后的數據清洗。
1. 給每一個sheet頁命名,方便尋找
2. 給每一個工作表加一列行號,方便后面改為原順序
3. 檢驗每一列的格式,做到每一列格式統一
4. 做數據源備份,防止處理錯誤需要參考原數據
5. 刪除不必要的空行、空列
數據清洗怎么做(二):統一數值口徑
這是個無聊而必要的步驟。例如我們統計銷售任務指標,有時用合同金額有時用回款金額,口徑經常不統一。統計起來就很麻煩。所以將不規范的數值改為規范這一步不可或缺。
數據清洗怎么做(三):刪掉多余的空格
原始數據中如果夾雜著大量的空格,可能會在我們篩選數據或統計時帶來一定麻煩。如何去掉多余的空格,僅在字符間保留一個空格?
1. 手動刪除。如果只有三五個空格,這可能是最快的方式。
2. 函數法
在做數據清洗時,經常需要去除數據兩端的空格,那么TRIM、LTRIM、RTRIM這3個函數就可以幫到你啦~
TRIM函數:主要是用來去除單元格內容前后的空格,但不會去除字符之間的空格。表達式:=TRIM(文本)
數據清洗怎么做(四):字段去重
強烈建議把去重放在去除空格之后,因為多個空格導致工具認為“顧納”和“顧 納”不是一個人,去重失敗。
按照“數據”-“刪除重復項”-選擇重復列步驟執行即可。(單選一列表示此列數據重復即刪除,多選表示多個字段都重復才刪除。)
數據清洗怎么做(五):填補缺失值
由于人工錄入或者數據爬蟲等多方面的原因,會出現缺失值的情況,這就需要我們尋找漏網之“數據”,填充空缺值。
如何統計有多少缺失值?先看ID唯一列有多少行數據,參考excel右下角的計數功能,對比就可以知道其他列缺失了多少數據。
如何定位到所有缺失值?Ctrl+G,選擇定位條件,然后選擇空值。
缺失值的處理方法:
1. 人工補全。適合數據量少的情況。
2. 刪除。適用于樣本較大的情況,樣本較小時,可能會影響最終的分析結果 。
3. 根據數據的分布情況,可以采用均值、中位數、或者眾數進行數據填充。數據均勻,均值法填充;數據分布傾斜,中位數填充。
數據清洗怎么做(六): 用模型計算值來代替缺失值
回歸:基于完整的數據集,建立回歸方程。將已知屬性值代入方程來估計未知屬性值,以估計值來進行空值得填充。
極大似然估計:基于缺失類型為隨機缺失得條件下,假設模型對于完整的樣本是正確的,通過觀測數據的邊際分布可以對缺失數據進行極大似然估計。
數據清洗怎么做(七):插補法
隨機插補法:從總體中隨機抽取某幾個樣本代替缺失樣本。
多重填補法:包含m個插補值的向量代替每一個缺失值的過程,要求m大于等于20。m個完整數據集合能從插補向量中創建。
數據清洗怎么做(八):異常值處理
異常值:指一組測定值中與平均值的偏差超過兩倍標準差的測定值。
對異常值處理,需要具體情況具體分析,一般而言,異常值的處理方法常用有以下3種:
1. 不處理
2.用平均值替代:利用平均值來代替異常值,損失信息小,簡單高效。
視為缺失值:將異常值視為缺失值來處理,采用處理缺失值的方法來處理異常值。
數據清洗怎么做(九):拆分單元格
按照以下步驟對合并單元格進行拆分并填充:
1. 點擊取消合并單元格
2. 空白單元格定位:點擊定位-選擇空白
3. 寫上=上個單元格
4. Ctrl+Enter
數據清洗怎么做(十):分組計算
通過VLOOKUP函數將字段合在一起用于計算。
VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)
以上是思邁特軟件Smartbi的分享,更多行業干貨可關注我們下一期的分享。思邁特軟件Smartbi是知名國產BI品牌,專注于商業智能BI與大數據BI分析平臺軟件產業的研發及服務。經過多年持續自主研發,凝聚大量商業智能最佳實踐經驗,整合了各行業的數據分析和決策支持的功能需求。滿足最終用戶在企業級報表、數據可視化分析、自助探索分析、數據挖掘建模、AI智能分析等大數據分析需求。
現個人版提供全模塊長期免費使用,有興趣的小伙伴可登陸官網免費試用。
責任編輯:tzh
評論