商業(yè)價(jià)值和人工智能原理| 數(shù)據(jù)驅(qū)動(dòng)的投資者
難以獲得商業(yè)價(jià)值。 我的意思是非常辛苦…就高級(jí)分析而言,該過程甚至…
演算法
人工智能已經(jīng)成為一種重要的技術(shù)趨勢(shì)。 現(xiàn)在各行各業(yè)都在擁抱AI,并且與AI的聯(lián)系更加緊密。 下圖列出了AI發(fā)揮重要作用的領(lǐng)域,不僅包括與AI密切相關(guān)的領(lǐng)域,還包括由AI間接賦予的那些領(lǐng)域。
在我們超越自己之前,我們需要了解AI,其應(yīng)用程序和系統(tǒng)背后的思想。
隨著AI在過去80年來的發(fā)展,我們已經(jīng)從圖靈測(cè)試到全民面對(duì)變革取得了成就。 機(jī)器像人類一樣使用AI來回答問題并創(chuàng)建或執(zhí)行計(jì)算和分析任務(wù)。 在某些領(lǐng)域,計(jì)算機(jī)已經(jīng)實(shí)現(xiàn)了人類的能力。 例如,2019年發(fā)布的人臉變化應(yīng)用程序基于AI領(lǐng)域中深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的廣泛應(yīng)用。
當(dāng)前,在我們的日常工作和生活中使用了許多AI應(yīng)用程序來代替人工工作。 例如,埃隆·馬斯克(Elon Musk)的AI項(xiàng)目能夠模擬人腦的操作。 但是,隨著AI的飛速發(fā)展,也出現(xiàn)了一些我想稱之為“假AI”的例子。
在AI的開發(fā)過程中,我們不得不面對(duì)幾個(gè)虛假的AI項(xiàng)目,例如,一個(gè)嚴(yán)重的虛假AI項(xiàng)目,欺騙了2億元人民幣(超過2800萬美元)的投資者。 因此,我們需要更好地了解什么是AI以及如何使用AI。
在學(xué)術(shù)界,人工智能的定義有些不同。 人工智能是對(duì)人類智能的模擬,能夠接收和分類信息,合理地執(zhí)行一系列任務(wù)并基于此做出決策。
它的主要特征之一是采取理性行動(dòng)的能力。
AI過程從感知到?jīng)Q策反饋。 決定AI系統(tǒng)是否可以采取適當(dāng)行動(dòng)的關(guān)鍵因素是它們?nèi)绾胃兄嘘P(guān)外部世界的信息。 由于AI試圖模擬人的大腦,因此感知過程實(shí)際上是理解和學(xué)習(xí)的過程。 這是深度學(xué)習(xí)試圖通過AI解決的問題。
深度學(xué)習(xí)
只有當(dāng)外部信息(例如視頻,文本或語音命令)轉(zhuǎn)換為機(jī)器語言時(shí),AI才能接受和響應(yīng)。 從AI的早期開始,科學(xué)家就開始考慮和研究此問題。
隨后,人們開始討論和研究如何通過視覺感知來輸入信息。 2012年,加拿大多倫多大學(xué)ImageNet競(jìng)賽的獲勝者Geoffrey Hinton和他的學(xué)生Alex Krizhevsky設(shè)計(jì)了一個(gè)解決方案。 那年之后,提出了更深的神經(jīng)網(wǎng)絡(luò),例如著名的VGG和GoogLeNet。 這些神經(jīng)網(wǎng)絡(luò)為傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法提供了出色的性能。
AlexNet深度學(xué)習(xí)的發(fā)展歷史
簡(jiǎn)而言之,AlexNet的目的是從大量對(duì)象中準(zhǔn)確識(shí)別命令中所需的對(duì)象。 該模型的應(yīng)用加速了圖像識(shí)別領(lǐng)域的發(fā)展,目前已被廣泛使用。
像我們的人腦一樣,神經(jīng)網(wǎng)絡(luò)使用多層次的學(xué)習(xí)模型,并且隨著它們的不斷學(xué)習(xí)而變得越來越復(fù)雜。 假設(shè)您想從數(shù)百萬個(gè)圖像中找到標(biāo)記為“貓”的圖像,并在一個(gè)非常大的數(shù)據(jù)集上訓(xùn)練一個(gè)經(jīng)過編輯的視覺網(wǎng)絡(luò)模型。 然后,通過模型迭代實(shí)施更復(fù)雜的訓(xùn)練。
目前,常用的RestNet模型的深度超過一百層,并結(jié)合了一些最新的科學(xué)研究發(fā)現(xiàn),例如下圖底部所示的快速橋連接。 這使用戶可以快速有效地訓(xùn)練深度網(wǎng)絡(luò)。 最終,這解決了視覺感知的問題。
阿里云:智能航空圍裙管理
該解決方案使用AI來識(shí)別飛機(jī)類型,登機(jī)門和機(jī)場(chǎng)車輛,并將它們反映在實(shí)際地圖上。 它還允許用戶在飛行過程中看到飛機(jī)的軌跡。 該信息可以用作AI管理的輸入信息,從而使機(jī)場(chǎng)的運(yùn)營(yíng)更加方便和有效。
如前所述,深度學(xué)習(xí)是一種重要的感知模式和方法。 深度學(xué)習(xí)算法主要包括:
· 資料標(biāo)記
· 算法模型開發(fā)
· 高性能的分布式培訓(xùn)
· 模型優(yōu)化
· 模型部署
感知之后,AI系統(tǒng)需要做出決策。 深度學(xué)習(xí)是一種黑盒操作,可以學(xué)習(xí)和感知外部信息,但不能提供任何解釋感知問題原因的反饋。 因此,分析和反饋需要決策能力。
傳統(tǒng)機(jī)器學(xué)習(xí)的示例主要包括決策樹算法和邏輯回歸。 例如,銀行發(fā)放貸款的過程是一個(gè)決策過程,在平衡各種因素后輸出決策。 我們可以使用決策樹輸出“是”或“否”的判斷,以確定是否授予貸款。 Logistic回歸是指兩種數(shù)據(jù)之間的相關(guān)性。 這是一種輸出精確解的數(shù)學(xué)方法。
實(shí)際上,深度學(xué)習(xí)和機(jī)器學(xué)習(xí)是互補(bǔ)的。 深度學(xué)習(xí)可以解決感知問題,例如計(jì)算機(jī)視覺和語音識(shí)別。 它使用神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)解決了許多感知問題,但無法解釋感知問題。 傳統(tǒng)的機(jī)器學(xué)習(xí)不提供這種用戶友好的感知功能。 但是,它的模型相對(duì)較小,可以直接解釋,這在財(cái)務(wù)和風(fēng)險(xiǎn)控制方案中是必需的。
人工智能早已應(yīng)用于廣告領(lǐng)域。 淘寶是最常見的廣告場(chǎng)景之一。 賣方首先根據(jù)消費(fèi)者的個(gè)人瀏覽信息調(diào)查用戶的偏好,然后通過智能推薦系統(tǒng)推送與消費(fèi)者搜索相關(guān)的產(chǎn)品。 這種智能算法的廣泛應(yīng)用使用戶信息挖掘更加高效和精確。
感知和決策都取決于算法。
· 感知:感知過程與深度學(xué)習(xí)算法有關(guān),涉及數(shù)據(jù)標(biāo)記,算法模型開發(fā),高性能分布式訓(xùn)練,性能優(yōu)化和模型部署。
· 決策:決策過程與傳統(tǒng)的機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法有關(guān)。 它涉及行業(yè)行為數(shù)據(jù)的收集,結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)處理,數(shù)據(jù)和算法的組合建模,算法開發(fā)培訓(xùn)和調(diào)整,模型部署以及實(shí)時(shí)培訓(xùn)反饋。
人工智能系統(tǒng)
隨著算法的快速發(fā)展,相應(yīng)的基礎(chǔ)架構(gòu)支持變得越來越重要。 這需要AI系統(tǒng)的支持。 構(gòu)建AI或機(jī)器學(xué)習(xí)系統(tǒng)的兩個(gè)基本因素是算法和計(jì)算能力。 算法創(chuàng)新是由計(jì)算能力的突破驅(qū)動(dòng)的。
下圖顯示了到2019年AI所需的計(jì)算能力。與AlphaGo Zero所需的計(jì)算能力相比,AlexNet對(duì)計(jì)算能力的需求增加了300,000倍。 在這種情況下,算法迭代和算法實(shí)現(xiàn)的解決方案對(duì)系統(tǒng)提出了更高的要求。
下圖顯示了AlexNet在2013年的系統(tǒng)。只需在機(jī)器上添加GPU,培訓(xùn)費(fèi)用約為每天500瓦,共7天。 這意味著業(yè)務(wù)模型的迭代周期約為一周。
在當(dāng)今企業(yè)需要快速開發(fā)廣告推薦和其他模型的時(shí)代,一個(gè)星期的模型迭代周期太長(zhǎng)了。 因此,越來越多的人對(duì)使用大型集群或芯片為AI系統(tǒng)提供更高的計(jì)算能力感興趣。 根據(jù)麻省理工學(xué)院在2014年進(jìn)行的比較,一個(gè)人在一分鐘內(nèi)可以處理約77張圖像,而單個(gè)GPU可以在同一時(shí)期內(nèi)處理230張圖像。 盡管單個(gè)GPU的處理速度不會(huì)比人類的處理速度快多少,但我們可以通過GPU集群來實(shí)現(xiàn)更大規(guī)模,更快的計(jì)算。 如下圖所示,512個(gè)GPU群集在一分鐘內(nèi)可以處理600,00張圖像。
在設(shè)計(jì)AI系統(tǒng)時(shí),您需要專注于如何實(shí)現(xiàn)高性能存儲(chǔ),實(shí)現(xiàn)機(jī)器之間的快速通信以及維護(hù)分布式集群的穩(wěn)定性。 目前,阿里云擁有一個(gè)內(nèi)部Eflops平臺(tái),該平臺(tái)可在三分鐘內(nèi)實(shí)現(xiàn)10′1的計(jì)算,每分鐘消耗128 KW的電量。 這樣的系統(tǒng)在2015年之前是不可想象的。我們實(shí)現(xiàn)這種功能的能力主要是由于大規(guī)模集群和系統(tǒng)底層芯片的可擴(kuò)展性。
目前,世界上許多企業(yè),特別是中國(guó)的企業(yè)正在研究和開發(fā)高性能芯片,阿里巴巴也不例外。 2019年,阿里巴巴發(fā)布了全球性能最高的AI推理芯片,漢光800。該芯片在實(shí)際的城市大腦和航空大腦場(chǎng)景中進(jìn)行了測(cè)試,達(dá)到了每秒近80萬張圖像的峰值性能。 這表示性能比上一代提高了約4000%。
通過增加軟件和硬件的復(fù)雜度,資源管理,有效的調(diào)度和系統(tǒng)范圍的優(yōu)化,增加系統(tǒng)復(fù)雜度會(huì)帶來一系列問題。 這是系統(tǒng)開發(fā)過程中所有各方都必須面對(duì)的挑戰(zhàn)。
您必須注意,AI集群不是通用集群。 在AI訓(xùn)練期間,子任務(wù)需要定期同步,并且不同機(jī)器之間需要高性能的通信。 在大多數(shù)情況下,使用基于GPU或NPU的專用組件。 當(dāng)前,不同的計(jì)算模型和交互模式對(duì)AI培訓(xùn)構(gòu)成了重大挑戰(zhàn)。
人工智能用于各種阿里巴巴業(yè)務(wù)場(chǎng)景。 因此,我們可以使用實(shí)際的AI應(yīng)用程序來優(yōu)化平臺(tái)設(shè)計(jì)。 例如,淘寶移動(dòng)的Pailitao(Snap-and-search)分類模型具有數(shù)百萬個(gè)類別,淘寶的Voice + NLP解決方案以及Alimama的廣告推薦系統(tǒng)。
經(jīng)過優(yōu)化的Apsara AI平臺(tái)分為三層,分別是底層的基礎(chǔ)架構(gòu),中間的培訓(xùn)和推理框架以及頂層的開發(fā)平臺(tái)。 AI平臺(tái)有三種重要類型:
· 輕量級(jí)AI開發(fā)平臺(tái):這些平臺(tái)可幫助算法和數(shù)據(jù)科學(xué)家執(zhí)行一鍵式開發(fā),調(diào)試和部署。
· 人工智能和大數(shù)據(jù)協(xié)作開發(fā)平臺(tái):這些平臺(tái)可幫助用戶快速開發(fā)面向大數(shù)據(jù)的業(yè)務(wù)系統(tǒng)。
· AI推理服務(wù)平臺(tái):這些平臺(tái)解決了計(jì)算資源問題,并提供了推理所需的模型訓(xùn)練,部署和性能監(jiān)控。
這三種類型的平臺(tái)支持算法API的輸出以及垂直域平臺(tái)和大腦解決方案的開發(fā)。
在深度學(xué)習(xí)領(lǐng)域,斯坦福大學(xué)推出了一個(gè)稱為DAWNBench的基準(zhǔn)。 與以前的最佳性能相比,阿里云的機(jī)器學(xué)習(xí)解決方案將性能提高了約10%。
如今,人工智能技術(shù)功能在提高資產(chǎn)利用率和滿足不同場(chǎng)景的需求方面發(fā)揮著重要作用。 全面的AI技術(shù)能力主要取決于以下基礎(chǔ)架構(gòu)和服務(wù):
· 基本硬件:提供一般的計(jì)算能力和AI計(jì)算能力。 它還通過基礎(chǔ)架構(gòu)即服務(wù)(IaaS)提供云功能。
· AI云服務(wù):此基礎(chǔ)平臺(tái)即服務(wù)(PaaS)層通過易于訪問的軟件和硬件環(huán)境提供了適合絕大多數(shù)用戶的計(jì)算能力。
· 高性能計(jì)算:這將加速核心AI計(jì)算引擎。
· AI系統(tǒng)框架:這提供了AI計(jì)算模型和跨體系結(jié)構(gòu)建模,迭代和部署的完整抽象。
· AI托管平臺(tái):這提高了算法研發(fā)的共享部署和輸出效率。 它還提供了具有較高用戶粘性的開發(fā)平臺(tái)。
智能計(jì)算與數(shù)據(jù)計(jì)算
人工智能用于智能計(jì)算,大數(shù)據(jù)用于數(shù)據(jù)計(jì)算。 兩種功能相互補(bǔ)充。
人工智能的數(shù)據(jù)支持
前面提到的算法和計(jì)算能力需要大數(shù)據(jù)量的支持。 數(shù)據(jù)是算法和計(jì)算能力價(jià)值的重要體現(xiàn)。
以下兩張圖片分別顯示了2005年和2013年的教皇觀眾。 隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng),大量可用數(shù)據(jù)改善了深度學(xué)習(xí)的性能。
1998年,小型MNIST系統(tǒng)的訓(xùn)練數(shù)據(jù)僅為10 MB,2009年ImageNet的訓(xùn)練數(shù)據(jù)為200 GB,2017年WebVision具有3 TB數(shù)據(jù)集,典型產(chǎn)品的視覺系統(tǒng)需要1 PB數(shù)據(jù)。 大量的數(shù)據(jù)已幫助阿里巴巴幾乎線性地提高了其性能。
讓我們看一個(gè)我們都熟悉的常見場(chǎng)景,以說明更大的數(shù)據(jù)量如何提高性能。 在X射線醫(yī)學(xué)診斷領(lǐng)域,研究表明,醫(yī)生從X射線圖像診斷疾病的能力與他們所查看的X射線圖像的數(shù)量直接相關(guān)。 他們檢查的圖像越多,診斷準(zhǔn)確性就越高。 類似地,可以通過大型計(jì)算機(jī)系統(tǒng)在更多數(shù)據(jù)上訓(xùn)練當(dāng)前的醫(yī)療引擎系統(tǒng),以實(shí)現(xiàn)更準(zhǔn)確的醫(yī)療診斷。
AI使大數(shù)據(jù)更智能
下圖顯示了大數(shù)據(jù)領(lǐng)域的趨勢(shì)。 當(dāng)前,大數(shù)據(jù)領(lǐng)域希望提取更多信息,實(shí)現(xiàn)實(shí)時(shí)計(jì)算,AI平臺(tái)并執(zhí)行在線預(yù)測(cè)。 所有這些趨勢(shì)表明,大數(shù)據(jù)的智能不斷提高。
當(dāng)前,從多個(gè)數(shù)據(jù)源獲取不同類型的數(shù)據(jù),包括結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),并將其存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中。 為了利用這些數(shù)據(jù)的潛在價(jià)值,需要智能計(jì)算。 在廣告推薦的情況下,數(shù)據(jù)源是用戶在淘寶上的點(diǎn)擊,瀏覽和購(gòu)買。 數(shù)據(jù)通過脫機(jī)或?qū)崟r(shí)同步以及脫機(jī)或?qū)崟r(shí)提取-轉(zhuǎn)換-加載(ETL)寫入數(shù)據(jù)倉(cāng)庫(kù)。 然后,基于數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)湖解決方案生成并訓(xùn)練各種數(shù)據(jù)模型。 最后,訓(xùn)練結(jié)果通過數(shù)據(jù)服務(wù)輸出。 如您所見,數(shù)據(jù)理解和使用過程變得越來越智能。
幾年前,混合事務(wù)/分析處理(HTAP)包括OLTP和OLAP。 OLAP可以進(jìn)一步分為大數(shù)據(jù),離線和實(shí)時(shí)分析。 不同的引擎適用于具有不同數(shù)據(jù)量的案例。 當(dāng)前,數(shù)據(jù)服務(wù)變得越來越重要。 在某些智能客戶服務(wù)場(chǎng)景中,實(shí)時(shí)AI推理服務(wù)和應(yīng)用程序需要數(shù)據(jù)提取模型。 因此,找到一種將分析與服務(wù)結(jié)合起來的方法至關(guān)重要。 這就是為什么我們目前正在追求混合服務(wù)和分析處理(HSAP)的原因。 結(jié)合AI,我們可以通過離線和實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)從數(shù)據(jù)中提取見解,并通過在線服務(wù)將此類見解呈現(xiàn)給用戶。
阿里巴巴已經(jīng)在自己的應(yīng)用程序中開發(fā)了基于人工智能的大數(shù)據(jù)方法和解決方案。 Double 11 Shopping Festival中的離線計(jì)算(批處理),實(shí)時(shí)計(jì)算(流計(jì)算),交互式分析和圖形計(jì)算方案已與Apsara AI平臺(tái)相結(jié)合,提供了由Apsara支持的新一代Apsara大數(shù)據(jù)產(chǎn)品 AI。
與人工智能類似,大數(shù)據(jù)也注重性能。 根據(jù)TPC基準(zhǔn)測(cè)試,2019年,阿里云的大數(shù)據(jù)平臺(tái)MaxCompute和E-MapReduce在計(jì)算性能和成本效益方面顯示出顯著優(yōu)勢(shì)。 下圖顯示了基準(zhǔn)測(cè)試結(jié)果。
阿里巴巴的AlimeBot目前通過應(yīng)用基于AI的深度學(xué)習(xí)和智能感知技術(shù),在用戶服務(wù)場(chǎng)景中為用戶提供智能語音交互服務(wù)。 為了實(shí)現(xiàn)智能性能,它必須與大數(shù)據(jù)業(yè)務(wù)系統(tǒng)緊密聯(lián)系,例如物流或用戶數(shù)據(jù)系統(tǒng)。
這使我們想到了下一個(gè)問題:企業(yè)應(yīng)如何接受AI? 簡(jiǎn)而言之,要使AI成為現(xiàn)實(shí),我們應(yīng)該從應(yīng)用程序需求出發(fā),逐步進(jìn)行技術(shù)創(chuàng)新,就像愛迪生如何改進(jìn)電燈泡一樣。 云提供了低成本,高性能和高穩(wěn)定性的基礎(chǔ)架構(gòu),但是對(duì)我們而言,關(guān)鍵是明確定義我們的需求。
在過去的幾年中,AI領(lǐng)域一直致力于算法創(chuàng)新和演示,但這還遠(yuǎn)遠(yuǎn)不夠。
AI算法只是系統(tǒng)的一部分。 在實(shí)施AI時(shí),企業(yè)還必須考慮如何收集數(shù)據(jù),獲得有用的功能以及執(zhí)行驗(yàn)證,流程管理和資源管理。
人工智能不是萬能的,但也不能忽略。 當(dāng)企業(yè)采用AI時(shí),必須首先從業(yè)務(wù)考慮出發(fā)。 隨著數(shù)據(jù)量和算法數(shù)量的增加,建立一支了解業(yè)務(wù)的數(shù)據(jù)工程師和算法工程師團(tuán)隊(duì)至關(guān)重要。 這是智能企業(yè)成功的關(guān)鍵。 我們已經(jīng)提到的所有算法,計(jì)算能力和數(shù)據(jù)解決方案都可以通過使用云中當(dāng)前可用的服務(wù)和解決方案來實(shí)現(xiàn)。 這可以幫助企業(yè)更快地實(shí)施AI。
評(píng)論