許多組織已經(jīng)意識到從其產(chǎn)品、服務和運營中收集的數(shù)據(jù)的價值。他們設立了新的行政職位,例如首席信息官 (CIO),其主要關注點是正確使用和保護這一新的大數(shù)據(jù)資源。CIO 隨后邀請信息技術(shù) (IT) 團隊實施新的數(shù)據(jù)政策和流程,其中包括:
治理:通過控制數(shù)據(jù)的存儲、訪問和處理來確保數(shù)據(jù)的完整性。
訪問:向工程、運營、保修、質(zhì)量、營銷和銷售團隊提供數(shù)據(jù)。
處理:如果數(shù)據(jù)足夠大,則需要專門的處理平臺來消除傳輸數(shù)據(jù)的延遲并減少處理數(shù)據(jù)的時間。
為了滿足這些新要求,IT 組織正在采用新技術(shù)和平臺來存儲和管理這些龐大且不斷增長的數(shù)據(jù)集。因此,您需要與 IT 團隊更緊密地合作,以便獲得訪問權(quán)限并設置一個工作流,使您能夠處理數(shù)據(jù)。在這個新環(huán)境中,使用與您的 IT 團隊用于存儲、管理和處理大數(shù)據(jù)的系統(tǒng)以及您熟悉的系統(tǒng)一起使用的軟件分析和建模工具,使您能夠有效地使用這些數(shù)據(jù)在日?;顒又小?/p>
大數(shù)據(jù)平臺及應用
IT 組織正在采用許多平臺來存儲和管理大數(shù)據(jù)。這些平臺不僅提供了存儲大數(shù)據(jù)的基礎設施,還支持用于以不同方式處理大數(shù)據(jù)的各種應用程序。這些應用程序可以大致分為兩類:大型歷史數(shù)據(jù)集的批處理,以及從設備連續(xù)收集的數(shù)據(jù)的實時或近實時處理。第二種情況通常稱為流式傳輸,在大多數(shù)物聯(lián)網(wǎng) (IoT) 應用程序中都可以找到。
Hadoop
Hadoop 是圍繞分布式存儲和分布式計算原則設計的。它由在服務器集群上共存的兩個主要子系統(tǒng)組成,使其能夠支持大型數(shù)據(jù)集。
HDFS:Hadoop 分布式文件系統(tǒng) (HDFS) 提供了一個用于存儲數(shù)據(jù)的大型容錯系統(tǒng)。
YARN:Yet Another Resource Negotiator (YARN) 管理運行 Hadoop 集群和處理存儲在 HDFS 中的數(shù)據(jù)的高度可擴展的應用程序。
批處理應用程序和創(chuàng)建模型
批處理應用程序通常用于分析和處理在很長一段時間內(nèi)或跨許多不同設備或系統(tǒng)收集的歷史數(shù)據(jù)。擁有使用這些批處理應用程序的能力,您可以在數(shù)據(jù)中尋找趨勢并開發(fā)在過去使用大量數(shù)據(jù)時無法實現(xiàn)的預測模型。
在 Hadoop 上運行的兩個比較流行的批處理應用程序包括:
Spark:一種更通用的框架,可優(yōu)化內(nèi)存中的操作,使其非常適合機器學習應用程序。
MapReduce:一個高度結(jié)構(gòu)化的框架,由 map 和 reduce 函數(shù)組成,適用于大數(shù)據(jù)分析和數(shù)據(jù)轉(zhuǎn)換應用。
流應用程序和模型集成
使用從歷史數(shù)據(jù)集開發(fā)的模型以及 Kafka 或 Paho 等流應用程序可以為您的產(chǎn)品和服務添加更多智能和自適應功能。這些差異化功能的示例包括: 預測性維護,這大大減少了不必要的維護以及計劃外停機時間;調(diào)整船舶、機車和商用車輛等重型設備的服務,以在其運行環(huán)境中更好地運行,從而實現(xiàn)更好的燃油經(jīng)濟性和增強的運行;和樓宇自動化系統(tǒng),以盡可能低的成本運行樓宇系統(tǒng),同時仍保持舒適的環(huán)境。
Mondi Gronau的工程師創(chuàng)建了一個統(tǒng)計過程控制 (SPC) 應用程序,其中包含使用 MATLAB 開發(fā)的預測模型。該系統(tǒng)不僅允許他們的機器操作員監(jiān)控其許多復雜生產(chǎn)線的操作,而且還提供警報以指示機器何時趨向于故障狀態(tài)。這些警報允許操作員在超出任何制造公差之前進行調(diào)整,從而減少原材料的損失。
在許多情況下,這類服務通常是與企業(yè)應用程序開發(fā)人員和系統(tǒng)架構(gòu)師一起開發(fā)的。但挑戰(zhàn)在于如何以有效的方式將您的模型集成到這些系統(tǒng)中。將模型移植到另一種語言既費時又容易出錯,每次對模型進行更新時都需要大量工作。用典型的 IT 語言開發(fā)預測模型很困難。擁有開發(fā)這些模型所需的領域?qū)I(yè)知識的工程師和科學家不熟悉這些語言,而且這些語言并不總是包含充分處理和從工程和科學數(shù)據(jù)創(chuàng)建模型所需的功能。
企業(yè)應用程序開發(fā)人員應該尋找一種數(shù)據(jù)分析和建模工具,它不僅為他們的工程師和科學家所熟悉,而且還提供了他們需要的特定領域的工具。這些工具還必須擴展以使用基于 Hadoop 的系統(tǒng)開發(fā)模型和大型數(shù)據(jù)集,這些系統(tǒng)提供高度穩(wěn)健的應用程序服務器和代碼生成等功能,從而為將模型部署到企業(yè)應用程序中提供直接路徑。
其他數(shù)據(jù)訪問應用程序
還有許多其他允許訪問正在采用的大數(shù)據(jù)的應用程序。其中一些包括允許使用數(shù)據(jù)庫類型語義訪問存儲在 HDFS 中的數(shù)據(jù)的接口。Hive 和 Impala 就是兩個這樣的應用程序,它們允許使用結(jié)構(gòu)化查詢語言 (SQL) 訪問和處理數(shù)據(jù)。這是一種成熟且廣泛使用的語言,用于處理關系數(shù)據(jù)庫中的數(shù)據(jù)。
NoSQL 數(shù)據(jù)庫的架構(gòu)旨在支持不同的大數(shù)據(jù)用例,也正在被采用。很多時候,這些數(shù)據(jù)庫支持 SQL 語言的子集來訪問和處理數(shù)據(jù),但也可能具有傳統(tǒng)數(shù)據(jù)庫不提供的附加接口功能。
科學家、工程師和 IT
如上所述,各種系統(tǒng)用于存儲、管理和處理大數(shù)據(jù)。通過與您的 IT 團隊密切合作并利用 MATLAB 等工具,您可以創(chuàng)建熟悉的工作流程,使您能夠輕松高效地工作,同時從大量數(shù)據(jù)中獲得洞察力。
審核編輯:郭婷
-
數(shù)據(jù)庫
+關注
關注
7文章
3905瀏覽量
65876 -
大數(shù)據(jù)
+關注
關注
64文章
8953瀏覽量
139682 -
nosql
+關注
關注
0文章
39瀏覽量
10285
發(fā)布評論請先 登錄
大數(shù)據(jù)與云計算是干嘛的?
AWTK-WEB 快速入門(5) - C 語言 WebSocket 應用程序

基于HPM_SDK_ENV開發(fā)應用程序的升級處理

AWTK-WEB 快速入門(4) - JS Http 應用程序

ANACONDA——關于發(fā)布數(shù)據(jù)應用程序的新簡單方法

android手機上emulate應用程序的方法
AWTK-WEB 快速入門(2) - JS 應用程序

AWTK-WEB 快速入門(1) - C 語言應用程序

智慧城市與大數(shù)據(jù)的關系
PCM2912應用程序的操作環(huán)境

評論