在如今火爆的數(shù)智化時代,企業(yè)都在利用大數(shù)據(jù)創(chuàng)新業(yè)務(wù)、獲得價值;然而,數(shù)據(jù)能否更好地賦能業(yè)務(wù),取決于企業(yè)數(shù)據(jù)質(zhì)量的好壞。好的數(shù)據(jù)質(zhì)量,經(jīng)過數(shù)據(jù)分析、挖掘、機(jī)器學(xué)習(xí)等手段,可以更好地輔助業(yè)務(wù)決策、幫助企業(yè)降本增效;差的數(shù)據(jù)質(zhì)量,從數(shù)據(jù)中獲得的價值有限,甚至?xí)`導(dǎo)做出錯誤的業(yè)務(wù)決策,從而給企業(yè)帶來災(zāi)難性的后果。
那么,一個企業(yè)的數(shù)據(jù)質(zhì)量如何,如何評估?常見的數(shù)據(jù)質(zhì)量問題都有哪些?這些問題是什么原因造成的?
數(shù)據(jù)質(zhì)量評估維度
在評價企業(yè)數(shù)據(jù)質(zhì)量的好壞時,首先需要定義評估的維度,通常較為重要的數(shù)據(jù)質(zhì)量維度有以下6個:
- 數(shù)據(jù)唯一性: 是指數(shù)據(jù)唯一,不存在重復(fù)記錄。即:不會出現(xiàn)一物多碼,一碼多物的情況。例如:主鍵唯一性,同一個ID不會重復(fù)記錄。
- 數(shù)據(jù)完整性: 是指數(shù)據(jù)在創(chuàng)建、處理流轉(zhuǎn)過程中無缺失和遺漏,包括實(shí)體完整、屬性完整、記錄完整和字段值完整。例如:員工的工號不可為空。
- 數(shù)據(jù)準(zhǔn)確性: 是指真實(shí)、準(zhǔn)確地記錄原始數(shù)據(jù),無虛假數(shù)據(jù)及信息。數(shù)據(jù)要準(zhǔn)確反映其所建模的"真實(shí)世界"的實(shí)體。例如:在業(yè)務(wù)系統(tǒng)上填寫信息時,手誤輸錯了新車類型信息,造成了數(shù)據(jù)庫里存在的信息與真實(shí)世界不一樣。
- 數(shù)據(jù)一致性: 是指數(shù)據(jù)是否遵循了統(tǒng)一的規(guī)范、是否符合邏輯。例如:同一車型所對應(yīng)的名稱在不同系統(tǒng)中保持一致。
- 數(shù)據(jù)及時性: 是指及時記錄和傳遞相關(guān)數(shù)據(jù),從而滿足業(yè)務(wù)對信息獲取的時間要求。主要指數(shù)據(jù)提取要及時、傳送要及時、轉(zhuǎn)換要及時、加載和展現(xiàn)要及時。
- 數(shù)據(jù)有效性: 指數(shù)據(jù)的值、格式和展現(xiàn)形式符合數(shù)據(jù)定義和數(shù)據(jù)業(yè)務(wù)定義的要求。例如:手機(jī)號要符合全球手機(jī)號碼編碼規(guī)則。
數(shù)據(jù)質(zhì)量問題分析原因
從數(shù)據(jù)的整個生命周期來看,任何一環(huán)節(jié)都有可能產(chǎn)生數(shù)據(jù)問題。在數(shù)據(jù)的采集階段,數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、完整性、一致性等會影響數(shù)據(jù)質(zhì)量。在數(shù)據(jù)的加工、存儲階段,也涉及到對數(shù)據(jù)的修改,也可能引發(fā)數(shù)據(jù)質(zhì)量問題。所以,業(yè)務(wù)、技術(shù)、管理等多方面的因素都有可能會影響到數(shù)據(jù)質(zhì)量。
業(yè)務(wù)問題
-
業(yè)務(wù)需求不清晰
在業(yè)務(wù)需求不清晰的情況下,很容易造成由于理解偏差,最終導(dǎo)致結(jié)果數(shù)據(jù)有問題。
-
需求頻繁變更
需求一旦變更,其中數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)存儲等環(huán)節(jié)就可能會受到影響,稍有不慎引入Bug,便造成數(shù)據(jù)質(zhì)量問題。
-
數(shù)據(jù)填報缺失或不準(zhǔn)確
業(yè)務(wù)系統(tǒng)側(cè),在數(shù)據(jù)錄入時,漏填或填錯信息,造成數(shù)據(jù)的質(zhì)量問題。
-
數(shù)據(jù)作假
為了提高或降低考核指標(biāo),對一些數(shù)據(jù)進(jìn)行人為造假,使得數(shù)據(jù)真實(shí)性無法保證。
技術(shù)問題
-
數(shù)據(jù)庫結(jié)構(gòu)設(shè)計問題
例如:數(shù)據(jù)庫表結(jié)構(gòu)、數(shù)據(jù)庫約束條件、數(shù)據(jù)校驗規(guī)則的設(shè)計開發(fā)不合理,造成數(shù)據(jù)錄入無法校驗或校驗不當(dāng),引起數(shù)據(jù)重復(fù)、不完整、不準(zhǔn)確。
-
數(shù)據(jù)采集問題
從業(yè)務(wù)系統(tǒng)采集過來的數(shù)據(jù)本身就有一些不完整、重復(fù)、不規(guī)范,如果沒有清洗、及時糾錯或清洗代碼有Bug,就會造成有質(zhì)量問題的數(shù)據(jù)進(jìn)入。
-
數(shù)據(jù)處理問題
數(shù)據(jù)在傳遞、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)存儲過程中,任一環(huán)節(jié)有技術(shù)問題,都有可能造成數(shù)據(jù)質(zhì)量問題。
-
各系統(tǒng)孤立開發(fā)
業(yè)務(wù)系統(tǒng)各自為政,孤立開發(fā),系統(tǒng)之間的數(shù)據(jù)孤島、數(shù)據(jù)不一致問題嚴(yán)重。
管理問題
企業(yè)管理缺乏數(shù)據(jù)思維, 沒有認(rèn)識到數(shù)據(jù)質(zhì)量的重要性。沒有進(jìn)行統(tǒng)一數(shù)據(jù)管理,沒有明確的數(shù)據(jù)質(zhì)量目標(biāo),也沒有制定數(shù)據(jù)質(zhì)量相關(guān)的政策和制度等。
數(shù)據(jù)質(zhì)量問題改進(jìn)指導(dǎo)
正如上述所列,造成數(shù)據(jù)質(zhì)量差的原因有很多;那么,面對企業(yè)數(shù)據(jù)質(zhì)量差的問題,如何改進(jìn)?借鑒PDCA循環(huán)(又名戴明環(huán))進(jìn)行數(shù)據(jù)質(zhì)量持續(xù)改進(jìn),以達(dá)最終數(shù)據(jù)質(zhì)量目標(biāo)。
PDCA循環(huán)
PDCA是一套“目標(biāo)管理”流程,通過規(guī)劃、執(zhí)行、檢查、行動四階段,確保每次的目標(biāo)都能達(dá)成。PDCA循環(huán)在質(zhì)量管理中得到廣泛的應(yīng)用。
PDCA的四個階段:
-
計劃 PLAN
先確定數(shù)據(jù)質(zhì)量目標(biāo),可通過數(shù)據(jù)質(zhì)量評估標(biāo)準(zhǔn)為當(dāng)前企業(yè)數(shù)據(jù)質(zhì)量進(jìn)行評估,設(shè)定改進(jìn)目標(biāo)。 對照目標(biāo)制定計劃與實(shí)施方案。在制定實(shí)施方案時,每1項措施要符合5W1H,即:為什么制定該措施?達(dá)到什么目標(biāo)?在何處執(zhí)行?由誰負(fù)責(zé)完成?什么時間完成?怎么完成? 比如:一項措施是為企業(yè)制定并執(zhí)行數(shù)據(jù)標(biāo)準(zhǔn)。
-
實(shí)施 DO
依據(jù)上一步計劃與實(shí)施方案進(jìn)行執(zhí)行。 比如:制定好數(shù)據(jù)標(biāo)準(zhǔn),推廣到各部門執(zhí)行。eg. 某車企會員類型(企業(yè)代碼標(biāo)準(zhǔn)、2位編碼):01 普通卡、02 黃金卡、03 鉆石、04 超級VIP卡;車保險種類代碼(外部代碼標(biāo)準(zhǔn)、4位編碼):10100 交強(qiáng)險、10200 商業(yè)車險 等等。
-
檢查 CHECK
完成一輪的實(shí)施之后,進(jìn)行檢查,對比當(dāng)前實(shí)際情況與預(yù)期目標(biāo)的差距。
-
行動 ACT
對于本輪的經(jīng)驗和措施形成標(biāo)準(zhǔn),標(biāo)準(zhǔn)化下來,持續(xù)運(yùn)行,防止質(zhì)量倒退。 對于沒有達(dá)到預(yù)期效果,分析原因,制定下一步行動,繼續(xù)下一輪的PDCA循環(huán)。
所有措施不可能在一個PDCA循環(huán)中全部解決,遺留的措施會自動轉(zhuǎn)進(jìn)下一個PDCA循環(huán),周而復(fù)始,螺旋上升。
改進(jìn)措施
有了PDCA循環(huán)的指引,透過PDCA環(huán)高效完成達(dá)到目標(biāo)的所有措施,持續(xù)改進(jìn)數(shù)據(jù)質(zhì)量。在制定有效措施方面,始終要遵循:及時發(fā)現(xiàn)問題 -> 立即解決問題-> 提前預(yù)防問題;因此,歸納改進(jìn)措施如下。
事前預(yù)防
- 提高全員數(shù)據(jù)質(zhì)量意識。加強(qiáng)培訓(xùn)、Session分享、或出題考試等,通過各種手段培養(yǎng)員工重視數(shù)據(jù)質(zhì)量,了解數(shù)據(jù)對下游所產(chǎn)生的影響。
- 制定數(shù)據(jù)規(guī)范、數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)、元數(shù)據(jù)管理等。
- 建立自動系統(tǒng),數(shù)據(jù)輸入控制,防止無效或不準(zhǔn)確數(shù)據(jù)進(jìn)入系統(tǒng)。
- 制定正式的變更控制、把關(guān)過程,防止正常處理流程之外直接更改數(shù)據(jù)。
- 制定相關(guān)制度來避免數(shù)據(jù)問題,如:嚴(yán)禁無記錄無跟蹤人為篡改數(shù)據(jù)。
事中監(jiān)控
問題發(fā)生,及時糾正,最大限度地降低糾正措施成本和風(fēng)險。
- 構(gòu)建日志管理體系,問題及時追蹤處理。
- 構(gòu)建數(shù)據(jù)異常處理機(jī)制與告警辦法
- 創(chuàng)建數(shù)據(jù)質(zhì)量監(jiān)測平臺,自動執(zhí)行數(shù)據(jù)質(zhì)量檢查和審計過程。
- 問題發(fā)生,及時數(shù)據(jù)修正:程序自動修正、程序自動發(fā)現(xiàn)且人工修正。
- 建立數(shù)據(jù)質(zhì)量的流程化控制體系,對數(shù)據(jù)的采集、加工、存儲等環(huán)節(jié)進(jìn)行流程化控制。
事后完善
- 問題發(fā)生解決后,要復(fù)盤,完善相應(yīng)的預(yù)防措施、數(shù)據(jù)規(guī)范、數(shù)據(jù)管理制定與政策等等
- 定期評估度量,落實(shí)行動項,逐步提升數(shù)據(jù)質(zhì)量。
寫到這里,想必大家對于數(shù)據(jù)質(zhì)量問題的分析與改進(jìn)有了一定的認(rèn)識。總之,記住下面這句話:
【首先】數(shù)據(jù)質(zhì)量評估 -> 發(fā)現(xiàn)問題,
【其次】問題根因分析 -> 分析問題,
【最后】戴明環(huán)方法改進(jìn) -> 解決問題。
-
數(shù)據(jù)質(zhì)量管理
+關(guān)注
關(guān)注
0文章
3瀏覽量
902
發(fā)布評論請先 登錄
相關(guān)推薦
評論