諸如結(jié)構(gòu)式訪談、非結(jié)構(gòu)式訪談、開放式問(wèn)卷調(diào)查、封閉式問(wèn)卷調(diào)查、記錄評(píng)論和觀察等技術(shù)統(tǒng)稱為事實(shí)調(diào)查方法。這種事實(shí)調(diào)查方法和其他數(shù)據(jù)獲取方法可以采取自動(dòng)化,而不必使用人工方法。
使用具有專用軟件的物理設(shè)備(如終端、傳感器和掃描儀等)也可用于管理物理設(shè)備和系統(tǒng)之間的接口。隨后,這些數(shù)據(jù)可以通過(guò)典型的編程語(yǔ)言(如Java、Visual Basic、C++、MatLab和Lisp)來(lái)進(jìn)行部分管理。也可使用開源和專用的數(shù)據(jù)采集軟件,如MIDAS(最大集成數(shù)據(jù)采集系統(tǒng))。
通常,數(shù)據(jù)采集系統(tǒng)是作為一個(gè)專用的獨(dú)立系統(tǒng)而開發(fā)的,這種系統(tǒng)被稱為數(shù)據(jù)記錄器。在有特殊需求的情況下,系統(tǒng)的工作模型已準(zhǔn)備好,并且也已呈現(xiàn)給了數(shù)據(jù)科學(xué)家。這樣的原型有助于用戶在系統(tǒng)實(shí)際構(gòu)建之前測(cè)試數(shù)據(jù)獲取機(jī)制。這有助于收集額外要求并測(cè)試已提出系統(tǒng)的可行性。
這里有發(fā)現(xiàn)更高層次內(nèi)容的知識(shí)獲取和機(jī)器學(xué)習(xí)方法(例如從資源中自動(dòng)地獲取信息和知識(shí)),這種知識(shí)獲取方法的例子如概念圖、審計(jì)、神經(jīng)網(wǎng)絡(luò)和其他與自動(dòng)知識(shí)發(fā)現(xiàn)相關(guān)的方法。
在其他工具中,數(shù)據(jù)清洗工具、數(shù)據(jù)管理和建模工具以及數(shù)據(jù)可視化工具都非常重要。本文列出了不同類別中的一些主要工具。
01
數(shù)據(jù)清洗工具
一旦完成數(shù)據(jù)收集,便需要檢查其清潔度。數(shù)據(jù)清洗通常稱為數(shù)據(jù)凈化,即其數(shù)據(jù)從源中刪除或更正臟數(shù)據(jù)的過(guò)程。數(shù)據(jù)聲明程序的目標(biāo)是識(shí)別和消除數(shù)據(jù)中的錯(cuò)誤,為進(jìn)一步分析、建模和可視化提供一致的數(shù)據(jù)。
在數(shù)據(jù)項(xiàng)層級(jí)上,一些不正確的數(shù)據(jù)通過(guò)適當(dāng)?shù)尿?yàn)證被拒絕。在諸如文件和數(shù)據(jù)庫(kù)的同構(gòu)數(shù)據(jù)集合中,不一致程度和錯(cuò)誤數(shù)量較少。在來(lái)自多個(gè)數(shù)據(jù)源的具有異構(gòu)性質(zhì)的大型數(shù)據(jù)庫(kù)(如數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)或全球基于Web的系統(tǒng))中,數(shù)據(jù)清洗變得至關(guān)重要。
產(chǎn)生這些問(wèn)題的原因有:
(1)不同的格式
(2)冗余數(shù)據(jù)
(3)數(shù)據(jù)使用的術(shù)語(yǔ)和標(biāo)準(zhǔn)不同
(4)合并數(shù)據(jù)使用的方法
刪除不準(zhǔn)確的、不完整或不合理的數(shù)據(jù)會(huì)提高數(shù)據(jù)的質(zhì)量。缺失值、特殊值、范圍檢查、演繹修正、插值、最小值調(diào)整、錯(cuò)字、審計(jì)和工作流規(guī)范檢查等是數(shù)據(jù)清洗的常用機(jī)制。
除了編程語(yǔ)言外,常用的數(shù)據(jù)清理工具如下所列。
1. Lavastorm分析
用于分析引擎等產(chǎn)品。
www.lavastorm.com
2. IBM InfoSphere信息服務(wù)器
分析、理解、清洗、監(jiān)視、轉(zhuǎn)換和傳輸數(shù)據(jù)。
http://www-03.ibm.com/software/products/en/infosphere-information-server/
3. SAS數(shù)據(jù)質(zhì)量服務(wù)器
清洗數(shù)據(jù),并在數(shù)據(jù)流管理服務(wù)器上執(zhí)行作業(yè)和服務(wù)。
www.sas.com
4. Oracle的主數(shù)據(jù)管理(MDM)
是處理大量數(shù)據(jù),并且提供諸如合并、清洗、擴(kuò)充和同步企業(yè)的關(guān)鍵業(yè)務(wù)數(shù)據(jù)對(duì)象等服務(wù)的解決方案。
http://www.oracle.com/partners/en/most-popular-resources/059010.html
5. 益百利 QAS清洗服務(wù)
為地址驗(yàn)證提供CASS認(rèn)證(編碼精度支持系統(tǒng))。
http://www.qas.co.uk/
6. NetProspex
為數(shù)據(jù)清理、追加以及正在進(jìn)行的市場(chǎng)數(shù)據(jù)管理提供支持。在印度,它現(xiàn)在是鄧白氏信息服務(wù)公司的一部分,其提供數(shù)據(jù)管理轉(zhuǎn)換和數(shù)據(jù)質(zhì)量程序。
http://www.netprospex.com/
http://www.dnb.co.in/
7. Equifax
為數(shù)據(jù)庫(kù)管理、數(shù)據(jù)集成和數(shù)據(jù)分析提供解決方案。
http://www.equifax.co.in/
8. CCR Data
清理并審計(jì)數(shù)據(jù)。該公司研發(fā)了ADAM—數(shù)據(jù)清理平臺(tái)。
9. Oceanosinc公司提供的解決方案
用于數(shù)據(jù)清理、聯(lián)系發(fā)現(xiàn)和商業(yè)智能。
http://www.oceanosinc.com/
10. Nneolaki
提供的工具用于數(shù)據(jù)收集、清理、附加和管理。
http://neolaki.net/
11. 數(shù)據(jù)清洗產(chǎn)品
為數(shù)據(jù)清洗提供方案。
http://www.datacleanser.co.uk/
02
數(shù)據(jù)管理和建模工具
數(shù)據(jù)科學(xué)實(shí)踐中的其他重要活動(dòng)是數(shù)據(jù)管理和數(shù)據(jù)準(zhǔn)備,其也被稱作數(shù)據(jù)整理。數(shù)據(jù)整理是將數(shù)據(jù)轉(zhuǎn)換或映射為格式良好的數(shù)據(jù)流的過(guò)程,以便數(shù)據(jù)可以順利地用于后續(xù)處理。
實(shí)際上,該過(guò)程允許通過(guò)工具便利和自動(dòng)地使用數(shù)據(jù)來(lái)進(jìn)行進(jìn)一步的活動(dòng)。排序、解析、提取、分解和恢復(fù)數(shù)據(jù)是數(shù)據(jù)管理階段的主要活動(dòng)。諸如Pearl、R、Python等編程工具以及來(lái)自編程語(yǔ)言和軟件包的一些現(xiàn)成庫(kù)可用于支持?jǐn)?shù)據(jù)管理活動(dòng)。
一旦數(shù)據(jù)準(zhǔn)備好進(jìn)行分析,諸如線性回歸、運(yùn)籌學(xué)方法以及決策支持系統(tǒng)等技術(shù)便通常用于數(shù)據(jù)建模。在這里,數(shù)據(jù)建模的基本目標(biāo)是,為了提高商業(yè)洞察力進(jìn)而確定干凈且有效的數(shù)據(jù)實(shí)體之間的關(guān)系。
致力于這個(gè)階段的數(shù)據(jù)科學(xué)家或?qū)<冶环Q為數(shù)據(jù)建模者。數(shù)據(jù)建模可以在概念層面、企業(yè)層面和物理層面完成。以下是支持?jǐn)?shù)據(jù)建模的主要工具。
12. CA ERwin數(shù)據(jù)模擬
為管理復(fù)雜數(shù)據(jù)提供了簡(jiǎn)單的可視化界面。
http://erwin.com/products/data-modeler
13. Database Workbench
為使用多個(gè)數(shù)據(jù)庫(kù)進(jìn)行開發(fā)提供了一個(gè)單一的開發(fā)環(huán)境。
http://www.upscene.com/database_workbench/
14. DeZign for Databases
是一個(gè)支持?jǐn)?shù)據(jù)庫(kù)設(shè)計(jì)和建模的工具。它還為數(shù)據(jù)庫(kù)應(yīng)用程序開發(fā)提供了復(fù)雜的可視化數(shù)據(jù)建模環(huán)境。
http://www.datanamic.com/dezign/
15. Enterprise Architect
是用于數(shù)據(jù)建模和軟件工程的完全集成的圖形支持工具。
http://www.sparxsystems.com/products/ea/
16. ER/Studio
為數(shù)據(jù)管理專業(yè)人員提供協(xié)作機(jī)制以構(gòu)建和維護(hù)企業(yè)級(jí)數(shù)據(jù)模型和元數(shù)據(jù)存儲(chǔ)庫(kù)。
http://www.embarcadero.com/products/er-studio
17. InfoSphere 數(shù)據(jù)架構(gòu)師(理性數(shù)據(jù)架構(gòu)師)
是一種協(xié)作式的數(shù)據(jù)設(shè)計(jì)方案。它簡(jiǎn)化了倉(cāng)庫(kù)設(shè)計(jì)、維度建模以及管理任務(wù)的變更。
http://www-03.ibm.com/software/products/en/ibminfodataarch/
18. ModelRight
為數(shù)據(jù)庫(kù)設(shè)計(jì)人員提供了諸如數(shù)據(jù)庫(kù)設(shè)計(jì)、圖形支持、報(bào)告和可視化界面等活動(dòng)的支持。
http://www.modelright.com/products.asp
19. MySQL Workbench
為數(shù)據(jù)庫(kù)架構(gòu)師、開發(fā)人員和數(shù)據(jù)庫(kù)管理員提供了統(tǒng)一的可視化工具。MySQL Workbench還提供數(shù)據(jù)建模、SQL開發(fā)和綜合管理。
http://www.mysql.com/products/workbench/
20. Navicat數(shù)據(jù)模擬器
有助于創(chuàng)建高質(zhì)量的邏輯數(shù)據(jù)模型和物理數(shù)據(jù)模型。
http://www.navicat.com/products/navicat-data-modeler
21. Open ModelSphere
是一款獨(dú)立于平臺(tái)且免費(fèi)的建模工具,可用作開源軟件。它為數(shù)據(jù)建模和軟件開發(fā)的所有階段提供了普遍支持。
http://www.modelsphere.org/
22. Oracle SQL Developer Data Modeler
是一款用于創(chuàng)建、瀏覽和編輯數(shù)據(jù)模型的免費(fèi)圖形工具。它支持邏輯的、關(guān)系的、物理的、多維的以及數(shù)據(jù)類型的模型。
http://www.oracle.com/technetwork/developer-tools/datamodeler/overview/index.html
23. PowerDesigner
管理設(shè)計(jì)時(shí)間更改和元數(shù)據(jù)。
http://www.powerdesigner.de/
24. Software Ideas Modeler
通過(guò)諸如UML、業(yè)務(wù)流程模型和符號(hào)(BPMN)、系統(tǒng)建模語(yǔ)言(SysML)等的標(biāo)準(zhǔn)圖以及多圖表,為建模提供支持。
https://www.softwareideas.net/
25. SQLyog
是一個(gè)強(qiáng)大的MySQL管理者和管理工具。
https://www.webyog.com/
26. Toad Data Modeler
是一個(gè)數(shù)據(jù)庫(kù)設(shè)計(jì)工具,其用于設(shè)計(jì)新的結(jié)構(gòu)、實(shí)體關(guān)系圖和SQL腳本生成器。
http://www.toad-data-modeler.com/
03
數(shù)據(jù)可視化工具
數(shù)據(jù)可視化是指數(shù)據(jù)的圖形表示。數(shù)據(jù)的可視化使得理解數(shù)據(jù)和溝通變得更容易。
有很多可用于數(shù)據(jù)可視化的工具,下面列出了一些常用可視化工具:
27. Dygraphs
是一個(gè)快速且靈活的開源JavaScript圖表庫(kù),其允許用戶探索和解釋密集的數(shù)據(jù)集。Dygraphs是一個(gè)高度可定制的工具。
http://dygraphs.com/
28. ZingChart
是一個(gè)JavaScript圖表庫(kù),其能為大量數(shù)據(jù)提供快速和交互式的圖表。
http://www.zingchart.com/
29. InstantAtlas
以有效的視覺方式提供交互式示意圖和報(bào)告軟件。
http://www.instantatlas.com/
30. Timeline
可以制作出美觀的互動(dòng)時(shí)間表。
http://www.simile-widgets.org/timeline/
31. Exhibit
是由麻省理工學(xué)院開發(fā)的完全開源軟件,其有助于創(chuàng)建交互式的示意圖和其他基于數(shù)據(jù)的可視化。
http://www.simile-widgets.org/exhibit/
32. Modest Maps
對(duì)于想要使用交互式示意圖的設(shè)計(jì)者和開發(fā)者來(lái)說(shuō),是一個(gè)免費(fèi)的圖書館。
http://modestmaps.com/
33. Leaflet
是適用于移動(dòng)友好交互式示意圖的現(xiàn)代開源JavaScript庫(kù)。
http://lea?etjs.com/
34. Visual.ly
有助于創(chuàng)建視覺表征。
http://create.visual.ly/
35. Visualize Free
構(gòu)建交互式可視化,用來(lái)說(shuō)明簡(jiǎn)單圖表不易表示的數(shù)據(jù)。
http://visualizefree.com/index.jsp
36. 多眼
IBM研發(fā)的“多眼”可以幫助用戶從數(shù)據(jù)集創(chuàng)建可視化并啟用數(shù)據(jù)分析。
http://www-969.ibm.com/software/analytics/manyeyes/
37. D3.js
是一個(gè)JavaScript庫(kù),D3.js從多個(gè)數(shù)據(jù)源使用HTML、SVG和CSS來(lái)生成圖形和圖表。
http://d3js.org/
38. Google Charts
提供一種機(jī)制來(lái)以多種交互式圖表(如線形圖、復(fù)雜的分層樹形圖等)的形式對(duì)數(shù)據(jù)進(jìn)行可視化。
https://developers.google.com/chart/interactive/docs/
39. Crossfilter
是一個(gè)JavaScript庫(kù),其用于探索瀏覽器中的大規(guī)模多變量數(shù)據(jù)集。此外,Crossfilter還提供可協(xié)調(diào)的3D可視化。
http://square.github.io/cross?lter/
40. Polymaps
在地圖上提供了快速且多縮放的數(shù)據(jù)集演示。
http://polymaps.org/
41. Gephi
是一款適用于各種網(wǎng)絡(luò)、復(fù)雜系統(tǒng)、動(dòng)態(tài)和分層圖形的交互式的可視化探索平臺(tái)。它支持探索性數(shù)據(jù)分析、鏈接分析、社交網(wǎng)絡(luò)分析以及生物網(wǎng)絡(luò)分析。該工具為已識(shí)別的類似數(shù)據(jù)集呈現(xiàn)彩色區(qū)域。
https://gephi.github.io/
除了上述工具和技術(shù)之外,數(shù)據(jù)科學(xué)領(lǐng)域還需要其他更多的專用新工具。由于數(shù)據(jù)科學(xué)領(lǐng)域是來(lái)自多個(gè)學(xué)科的技術(shù)聯(lián)盟,并且具有無(wú)處不在的應(yīng)用,因此數(shù)據(jù)科學(xué)在研究和開發(fā)中必須被賦予最重要的地位。此外,數(shù)據(jù)科學(xué)領(lǐng)域還需要文檔編制、新的技術(shù)和模型。
典型的模型和技術(shù)可能不適合已獲取的數(shù)據(jù)集,這些數(shù)據(jù)需要典型方法外的支持。在這里,人工智能技術(shù)可能會(huì)有很大的貢獻(xiàn)。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4811瀏覽量
103016 -
數(shù)據(jù)管理
+關(guān)注
關(guān)注
1文章
312瀏覽量
19961 -
可視化
+關(guān)注
關(guān)注
1文章
1250瀏覽量
21687
原文標(biāo)題:41款實(shí)用工具,數(shù)據(jù)獲取、清洗、建模、可視化都有了
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
Debian和Ubuntu哪個(gè)好一些?
樹莓派在自動(dòng)化控制項(xiàng)目中的一些潛在應(yīng)用

先進(jìn)封裝中的TSV/硅通孔技術(shù)介紹

一些常見的動(dòng)態(tài)電路

安森美系統(tǒng)設(shè)計(jì)工具介紹

分享一些常見的電路

Kali Linux常用工具介紹
MHMF042L41N-MINAS A6N系列 介紹 松下

LED驅(qū)動(dòng)器應(yīng)用的一些指南和技巧

NFC IC配置工具NFC Cockpit的主要特性

評(píng)論