現在企業都擁有海量數據。就在十年前,千兆字節的數據似乎還很龐大。而如今,有些大型企業已經在管理澤字節數據。為了讓你了解這種數據規模,我們打個比方,如果你的筆記本電腦或臺式機裝有1 TB硬盤驅動器,則澤字節相當于10億個這樣的硬盤驅動器。
企業如何從如此多的數據中挖掘商業價值呢?他們需要能夠分析這些數據,這就像在大海撈針。而這正是數據科學、機器學習和AI發揮作用的地方,但你并不需要澤字節規模的數據來使這三項技術具有相關性。
對于各種行業中各種類型和規模的企業,這三項技術都是關鍵技術主題。但是,對于數據科學、機器學習、人工智能以及它們各自涉及的內容,人們仍然經常感到困惑。你需要了解這些變革性概念的性質和目的,以幫助你學習如何最好地利用它們以滿足緊迫的業務需求。
下面讓我們看看這些技術,了解它們之間的差異以及如何讓它們協同工作。
數據科學
雖然從數據出現以來,數據就是計算的核心,但在數據出現的幾十年后,才出現專門處理數據分析的單獨領域。數據科學專注于統計方法、科學方法和高級分析技術–而不是數據管理的技術方面,這些技術將數據視為離散資源,而不管其存儲或操作方式如何。
在其核心,數據科學旨在從數據中提取有用的見解,基于企業高管和其他潛在用戶的特定要求。客戶想要購買什么?企業的特定產品或在某個地理區域的情況如何?COVID-19疫情是否正在縮減或增加資源?這些是可以通過數據科學回答的問題,其中利用數學、統計和數據分析。
傳統上來看,企業依靠商業智能系統從不斷增長的數據池中獲得見解。但是,BI系統部分依靠人類來發現電子表格、儀表板、圖表或圖形中的趨勢。他們也受到大數據4個屬性的挑戰:數量、速度、多樣性和準確性。隨著企業存儲越來越多的數據,以更快的速度從各種各樣的數據源中收集數據,以不同的格式和不同的數據質量級別,BI的常規數據倉庫和業務分析方法已經不夠用。
相比之下,亞馬遜、谷歌、Netflix和Spotify等領先公司的經驗表明,應用數據科學的基本方面可以幫助發現更深刻的見解,從而提供比商業競爭對手更大的競爭優勢。他們和其他組織(銀行和保險公司、零售商、制造商等)都在利用數據科學來發現數據集的模式、識別潛在的異常交易、發現錯失客戶的機會,并創建未來行為和事件的預測模型。
同樣,醫療保健提供者依靠數據科學來幫助診斷醫療狀況,并改善患者護理,而政府機構則將其用于提早通知可能危及生命的情況,以及確保關鍵系統和基礎設施的安全性等。
數據科學工作主要由數據科學家完成。盡管對其工作描述尚未達成共識,但下面是有效的數據科學家必須具備的最低技能:
完全掌握統計數據和概率;
了解用于分析數據的各種算法方法;
懂得使用各種工具、技術來探究大型數據集以獲得所需分析結果;
數據可視化功能,可提供對所生成見解的可視性。
作為數據科學團隊的一部分,數據科學家經常與數據工程師合作,以從多個源系統中收集和整理數據;數據科學家還需要與業務分析師合作,以了解不斷發展的業務需求,以及數據分析師,以了解不斷變化的數據集特性,還有開發人員–他們可以幫助將由數據科學應用程序生成的分析模型投入生產環境。
現在企業越來越多地要求這些模型做更多的事情,而不僅僅是提供對當前數據狀態的見解的快照。數據科學家可以訓練算法來學習樣本數據的模式、相關性和其他特征,然后分析他們從未見過的完整數據集。通過這種方式,數據科學推動人工智能的發展,特別是通過使用機器學習來支持AI的目標。
機器學習
智能的標志之一是從經驗中學習的能力。如果機器可以識別數據中的模式,則它們可以使用這些模式來對新數據生成見解或預測。這是機器學習背后的基本概念。
機器學習依賴于算法,這些算法可以將從良好數據示例中學習編碼為模型。這些模型可用于廣泛的應用程序,例如將數據分類(“此圖像是貓嗎?”),根據給定的先前識別模式預測某些數據的值(“此交易是欺詐的概率是多少? ?”),以及標識數據集中的組(“我還可以向購買該產品的人推薦其他哪些產品?”)。
機器學習的核心概念體現在分類、回歸和聚類中。現在已經創建各種各樣的機器學習算法,可跨不同的數據集執行任務。可用的算法包括決策樹、支持向量機、K均值聚類、K最近鄰、樸素貝葉斯分類器、隨機森林、高斯混合模型、線性回歸、邏輯回歸、主成分分析等。數據科學家通常會構建和運行算法;現在,有些數據科學團隊還包括機器學習工程師,他們可以幫助編碼和部署結果模型。
機器學習過程涉及不同類型的學習,其中數據科學家和分析師的指導水平各不相同。主要的替代方法是:
有監督學習,從人為標記的培訓數據開始,幫助指導算法學習什么;
無監督學習,在這種方法中,算法使用未標記的訓練數據自行發現信息;
強化學習,它使算法可以通過反復試驗來學習初始指令,并受到數據科學家的持續監督。
現在沒有哪種算法方法能像人工神經網絡那樣讓人感到興奮和充滿希望。就像生物系統一樣,神經網絡包含神經元,這些神經元可以獲取輸入數據,對輸入施加權重和偏差調整,然后將結果輸出饋送到其他神經元。通過這些神經元之間一系列復雜的互連和相互作用,隨著時間的推移,神經網絡可以學習如何調整權重和偏差,以提供所需結果。
在1950年代還是感知器算法中的單層神經元,現在已經發展成為一種更為復雜的方法,稱為深度學習,該方法使用多層來產生細微而復雜的結果。這些多層神經網絡已經顯示出強大功能,可從大型數據集中學習并支持面部識別、多語言對話系統、自動駕駛汽車和高級預測分析等。
在數據密集型公司(例如Google、Netflix、亞馬遜、微軟和IBM)的大力推動下,曾經看起來像是一種假設的研究迅速成為可能現實,并在2000年代初開始發展。大數據的可用性、數據科學的能力和機器學習的力量,不僅為面臨挑戰的當今企業提供了答案,而且還可以幫助克服長期挑戰,使AI照進現實。
人工智能
人工智能是比計算本身更古老的想法:是否有可能創造出具有人類認知能力的機器?人工智能的想法最早出現在在20世紀中葉,長期以來,這個想法激勵著學者、研究人員和科幻小說作家。在1950年,計算機先驅和著名的代碼破解者Alan Turing提出機器智能的基本測試,該測試被稱為圖靈測試。人工智能一詞是在1956年在達特茅斯舉行的AI會議上提出。
AI仍然是一個夢想,幾十年前很多人所設想人工智能仍然沒有實現。具有完全認知和智力能力的機器的概念被稱為人工智能(AGI)或通用AI。目前還沒有人建立這樣的系統,如果可行的話,AGI的開發可能還需要數十年的時間。
但是,我們已經能夠解決弱AI任務。我的研究公司Cognilytica已經定義七種AI模式,這些模式專注于感知、預測或規劃的特定需求。
例如,它們包括訓練機器:
準確識別圖像、對象和非結構化數據中的其他元素;
與人類進行有意義的對話互動; 使用生成的見解來推動預測分析系統;
發現大數據集中的模式和異常; 為超個性化用途創建個人的詳細配置文件;
支持自治系統–在很少人或沒有人參與的情況下;
解決情景模擬和其他具有挑戰的目標驅動型問題。
這些用例都提供重要功能和價值,盡管沒有解決AGI的總體目標。機器學習的發展直接帶來這些弱AI應用程序的發展。而且由于數據科學使機器學習變得切實可行,因此它也使機器學習成為現實。
數據科學、機器學習和AI之間的差異
盡管數據科學、機器學習和AI很相似,并可在分析應用程序和其他用例中互相支持,但它們的概念、目標和方法卻有很大不同。為了進一步區分它們,請考慮下列關鍵屬性。
數據科學:
專注于從海量數據中提取有效信息,以幫助決策和計劃;
通過描述性、預測性和規范性分析應用程序,適用于廣泛的業務問題;
可處理小規模數據到非常大的數據集;
使用統計、數學、數據整理、大數據分析、機器學習和其他各種方法來回答分析問題。
機器學習:
專注于為算法和系統提供方法,以從數據經驗中學習并利用該經驗隨著時間的推移而改進;
通過檢查數據集而不是顯式編程來學習,利用數據科學方法、技術和工具;
可以通過有監督、無監督或強化學習方法來完成;
支持人工智能用例,尤其是處理特定任務的弱AI應用程序。
人工智能:
專注于賦予機器類似于人類的認知和智力能力;
包含智能概念的集合,包括感知、規劃和預測元素;
能夠在特定任務和工作流程中增強或代替人類;
當前還沒有解決人類智能的關鍵方面,例如常識理解、將知識從一種環境應用到另一種環境、適應變化并展示感知力和意識。
數據科學、機器學習和AI如何結合
數據科學本身的力量很巨大,當與機器學習相結合,可提供更大的潛在價值,從不斷增長的數據池中獲得洞察力。當這二者結合使用時,還可以驅動各種弱AI應用程序,并最終可能解決通用AI的挑戰。
更具體地說,下面是企業如何結合數據科學、機器學習和AI以產生有效效果的示例:
預測性分析應用程序,可基于對不斷變化數據集的分析,預測客戶行為、業務趨勢和事件;
AI會話系統,可與客戶、用戶、患者和其他個人進行高度交互的通信;
由機器學習和AI驅動的異常檢測系統,可響應不斷發展的威脅并增強自適應網絡安全和欺詐檢測系統;
超個性化系統,可實現有針對性的廣告、產品推薦、財務指導和醫療保健,以及其他針對客戶的個性化產品。
數據科學、機器學習和AI是獨立的概念,它們各自提供強大的功能,而這三者相結合正在改變我們管理企業和業務運營的方式-以及我們如何生活、工作以及與周圍世界交互。
責編AJX
-
人工智能
+關注
關注
1803文章
48374瀏覽量
244391 -
機器學習
+關注
關注
66文章
8477瀏覽量
133782 -
數據科學
+關注
關注
0文章
168瀏覽量
10338
發布評論請先 登錄
相關推薦
評論