英特爾決心全力發(fā)展AI,明年現(xiàn)有的Xeon E5、Xeon Phi處理器平臺(tái)都將推出新一代產(chǎn)品,并將以Xeon搭配新開(kāi)發(fā)的「Lake Crest」芯片,專攻類神經(jīng)網(wǎng)絡(luò)的加速應(yīng)用
【英特爾AI應(yīng)用主打4種服務(wù)器處理器】若要在數(shù)據(jù)中心環(huán)境當(dāng)中建構(gòu)AI系統(tǒng),英特爾預(yù)計(jì)將提供4種運(yùn)算平臺(tái):Xeon、Xeon Phi、Xeon搭配FPGA(Arria 10)、Xeon搭配N(xiāo)ervana(Lake Crest),分別主打基本用途、高效能、低延遲與可程序化、類神經(jīng)網(wǎng)絡(luò)加速等不同需求。圖片來(lái)源:iThome
這一年來(lái),除了云端服務(wù)、大數(shù)據(jù)、行動(dòng)應(yīng)用持續(xù)走紅以外,人工智能(AI)無(wú)疑是下一個(gè)即將起飛的熱門(mén)IT技術(shù),許多人已經(jīng)開(kāi)始積極投入機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的開(kāi)發(fā)與應(yīng)用,繪圖處理器大廠Nvidia今年的營(yíng)收、獲利、股價(jià)持續(xù)上漲,也與此有關(guān),而同樣是處理器大廠的英特爾,現(xiàn)在也對(duì)AI的發(fā)展寄予厚望,并正式宣布調(diào)整以AI為重的策略,全力發(fā)展軟硬件技術(shù),以支持相關(guān)的發(fā)展。
在11月18日舉行的「Intel AI Day」活動(dòng)當(dāng)中,英特爾執(zhí)行長(zhǎng)Brian Krzanich提出了他們的愿景,并期盼能推動(dòng)AI普及,將AI變得更平民化,進(jìn)而引領(lǐng)AI運(yùn)算時(shí)代的來(lái)臨,使英特爾能夠成為加速AI發(fā)展的催化劑。
而就更實(shí)際的產(chǎn)品而言,英特爾在服務(wù)器端處理器平臺(tái)上,也針對(duì)AI有所布局。在2017年,現(xiàn)有的Xeon E5、Xeon Phi處理器平臺(tái)都將推出新一代產(chǎn)品,同時(shí),除了以Xeon搭配FPGA(Field Programmable Gate Array)芯片Altera Arria 10之外,英特爾也將以Xeon搭配新開(kāi)發(fā)的「Lake Crest」芯片,專攻類神經(jīng)網(wǎng)絡(luò)的加速應(yīng)用。
值得注意的是,Lake Crest的形式是一張基于硅芯片的獨(dú)立加速卡,技術(shù)源自于英特爾今年8月并購(gòu)的新創(chuàng)公司Nervana Systems,該產(chǎn)品將于2017年第一季問(wèn)世。之后,英特爾還將推出Xeon結(jié)合這種新型態(tài)加速AI處理機(jī)制的芯片,研發(fā)代號(hào)稱為「Knights Crest」,屆時(shí),采用這顆芯片的服務(wù)器直接具有系統(tǒng)開(kāi)機(jī)的能力,無(wú)需搭配Xeon處理器。
英特爾AI服務(wù)器平臺(tái)的發(fā)布時(shí)程
在2016這一年,英特爾已經(jīng)推出了FPGA的系統(tǒng)單芯片解決方案Arria 10,以及Xeon Phi x200系列(Knights Landing)。2017年他們將發(fā)表新的Xeon Phi(Knights Mill),以及深度學(xué)習(xí)專用的運(yùn)算芯片Lake Crest,而在通用服務(wù)器級(jí)處理器Xeon系列,基于Skylake微架構(gòu)的產(chǎn)品也將問(wèn)世。
強(qiáng)化平行處理與向量處理性能,Xeon與Xeon Phi支持新指令集
英特爾在2017年即將推出的服務(wù)器產(chǎn)品,還包括采用Skylake微架構(gòu)的新一代Xeon處理器,以及Xeon Phi(代號(hào)為Knights Mill)。
以現(xiàn)行的Xeon E5-2600 v4系列處理器而言,根據(jù)英特爾提供的效能測(cè)試數(shù)據(jù),若執(zhí)行大數(shù)據(jù)與AI領(lǐng)域經(jīng)常會(huì)運(yùn)用的Apache Spark軟件環(huán)境,效能提升的幅度,可望達(dá)到18倍之高(以今年推出的Xeon E5-2699 v4搭配MKL 2017 Update 1鏈接庫(kù),對(duì)上Xeon E5-2697 v2搭配F2jBLAS鏈接庫(kù))。
英特爾表示,在初期出貨給特定云端服務(wù)業(yè)者的「Skylake」Xeon處理器版本(preliminary version)當(dāng)中,將會(huì)加入更多整合式加速運(yùn)算的進(jìn)階特色。例如,新的進(jìn)階向量延伸指令集AVX-512,可針對(duì)機(jī)器學(xué)習(xí)類型工作負(fù)載的執(zhí)行,提升相關(guān)的推理論斷能力。至于Xeon新平臺(tái)其他增益的功能與組態(tài)支持,預(yù)計(jì)將會(huì)在2017年中正式發(fā)布時(shí),才會(huì)揭露。
若單看AVX-512這套指令集,目前只有今年6月推出的Xeon Phi x200系列處理器(Knights Landing)支持,接下來(lái),英特爾的主力通用服務(wù)器平臺(tái)Xeon處理器,會(huì)在下一代采用Skylake微架構(gòu)的產(chǎn)品當(dāng)中支持。
因此,就目前而言,英特爾現(xiàn)有處理器所支持的AVX指令集,總共可分為三代:Sandy Bridge和Ivy Bridge微架構(gòu)處理器,內(nèi)建的是第一代AVX,Haswell和Broadwell微架構(gòu)處理器改為AVX2,而Skylake微架構(gòu)和Knights Landing是采用AVX512。基本上,前兩代的AVX指令集,都是基于128位SIMD緩存器,可延伸到256位。
至于Xeon Phi的下一代產(chǎn)品 「Knights Mill」,英特爾表示,會(huì)把深度學(xué)習(xí)的應(yīng)用效能,提升到現(xiàn)有Xeon Phi處理器(7290)的4倍,并同樣具備直接內(nèi)存訪問(wèn)(Direct Memory Access)的能力——最高可存取到400GB(Knights Landing是以384GB的DDR4內(nèi)存,搭配16GB的MCDRAM)。
同時(shí),在橫向擴(kuò)展到32節(jié)點(diǎn)的系統(tǒng)環(huán)境當(dāng)中,目前的Xeon Phi也已經(jīng)能大幅縮短機(jī)器學(xué)習(xí)的訓(xùn)練時(shí)間,成效差距可達(dá)到31倍之大。
基于FPGA可程序化硬件運(yùn)算技術(shù),推出深度學(xué)習(xí)加速卡DLIA
FPGA則是另一個(gè)英特爾近年來(lái)極力發(fā)展的重點(diǎn),他們?cè)?015年并購(gòu)了專攻FPGA技術(shù)的Altera公司,并以此成立新的業(yè)務(wù)單位──可程序化解決方案事業(yè)群(Programmable Solutions Group)。
針對(duì)高效能運(yùn)算(HPC)領(lǐng)域當(dāng)中也相當(dāng)熱門(mén)的AI應(yīng)用,英特爾在今年11月稍早舉行的Supercomputing 2016大會(huì)期間,也宣布將于2017年初推出基于FPGA的AI加速解決方案,名為Deep Learning Inference Accelerator(DLIA),可用于影像辨識(shí)應(yīng)用,并且具備大量的數(shù)據(jù)吞吐能力與高度的能源效益。
DLIA的硬件是英特爾FPGA 系列產(chǎn)品當(dāng)中的Arria 10的適配卡,芯片之間傳輸率,最高可達(dá)到25.78 Gbps,最大浮點(diǎn)運(yùn)算效能為1,500 GFLOPS,可因應(yīng)卷積神經(jīng)網(wǎng)絡(luò)(CNN)的部署架構(gòu),提供優(yōu)化效能。而且,Arria 10本身所采用的處理器,是20奈米制程的ARM系統(tǒng)單芯片(SoC)Cortex-A9 MPCore,比起前一代FPGA與SoC芯片,號(hào)稱能節(jié)省4成的電力。
同時(shí),由于DLIA是基于FPGA技術(shù)而成,所以秉持了可程序化的特性,用戶能從遠(yuǎn)程對(duì)DLIA進(jìn)行韌體更新,以便隨時(shí)因應(yīng)AI技術(shù)的改變,而且也能直接運(yùn)用深度學(xué)習(xí)的軟件開(kāi)發(fā)框架,例如英特爾自己維護(hù)、發(fā)行的Caffe,以及MKL-DNN(Math Kernel Library for Deep Neural Networks)等鏈接庫(kù)。
專為深度學(xué)習(xí)應(yīng)用所設(shè)計(jì)的Crest系列芯片,預(yù)計(jì)將在2017年問(wèn)世
英特爾2016年并購(gòu)Nervana公司后,預(yù)計(jì)在2017年推出運(yùn)算芯片Nervana Engine。
這顆代號(hào)為L(zhǎng)ake Crest的處理器,是專為深度學(xué)習(xí)的工作負(fù)載所設(shè)計(jì)的,將提供極高的運(yùn)算密度,大幅超越現(xiàn)行GPU的運(yùn)算能力。
在數(shù)據(jù)存取的方式上,Lake Crest本身也配置了新一代的高速帶寬內(nèi)存技術(shù)HBM2,搭配的總?cè)萘繛?2GB,訪問(wèn)速度高達(dá)8Tb/s。而芯片之間進(jìn)行互相溝通時(shí),Lake Crest提供12個(gè)雙向的鏈接通道,有助于在彼此互連的架構(gòu)下,進(jìn)行高速數(shù)據(jù)傳輸。
英特爾強(qiáng)調(diào),Lake Crest能支持真正的數(shù)據(jù)模型平行處理作業(yè),因?yàn)樵谶@樣的運(yùn)算架構(gòu)當(dāng)中,每一個(gè)運(yùn)算節(jié)點(diǎn),都會(huì)配置專用的內(nèi)存接口,如此一來(lái),系統(tǒng)能夠存取的數(shù)據(jù)模型大小較不受限,同時(shí)也可以藉此增進(jìn)內(nèi)存I/O效率。
而在Lake Crest之后,英特爾打算師法Xeon Phi x200系列處理器的作法,推出更進(jìn)一步整合Xeon與Nervana加速技術(shù)的芯片,研發(fā)代號(hào)為Knights Crest。展望AI運(yùn)算平臺(tái)的未來(lái)目標(biāo),他們希望將現(xiàn)行AI應(yīng)用耗費(fèi)在深度學(xué)習(xí)訓(xùn)練的時(shí)間,盡可能地縮短,在2020年能做到實(shí)時(shí)訓(xùn)練,達(dá)到節(jié)省幅度100倍的目標(biāo)。
Lake Crest的深度學(xué)習(xí)處理架構(gòu)
Lake Crest是基于多維度數(shù)據(jù)數(shù)組(tensor-based)的處理架構(gòu),而且,提供Flexpoint的作法,所能支持的平行處理層級(jí)是現(xiàn)行技術(shù)的10倍。這顆芯片內(nèi)建的內(nèi)存也很特別,是HBM(High Bandwidth Memory)的第二代技術(shù),內(nèi)存帶寬是目前DDR4的12倍。
下篇:英特爾AI策略全解析(2):軟件的優(yōu)化提供強(qiáng)大效能
評(píng)論