根據行業的參考標準,AI將是下一件大事,或將在下一件大事中發揮重要作用。這也就解釋了過去18個月里人工智能領域活動的瘋狂。大公司支付數十億美元收購創業公司,甚至投入更多的資金用于研發。此外,各國政府正在向大學和研究機構投入數十億美元。全球競賽正在進行,目的是創建的最佳的架構和系統來處理AI工作所必需的海量數據。
市場預測也相應上升。 根據Tractica研究所的數據,到2025年,AI年收入預計將達到368億美元。Tractica表示,迄今為止已經確定了AI的27種不同的細分行業以及191個使用案例。
但隨著我們深入挖掘,很快就可以明顯地看到,并不存在一個的最好的方式來解決AI問題。甚至對于AI是什么,或需要分析的數據類型,我們尚沒有一致的定義。
圖1 AI收入增長預測。來源:Tractica
OneSpin Solutions總裁兼首席執行官Raik Brinkmann說,“在人工智能芯片中,你有三個問題需要解決。首先,你需要處理大量的數據。其次,構建用于并行處理的互連。第三是功率,這是你移動數據量的直接結果。所以你亟須從馮諾依曼架構轉變到數據流架構。但它究竟是什么樣子?”
目前的答案很少,這就是為什么AI市場的第一顆芯片包括現成的CPU,GPU,FPGA和DSP的各種組合。雖然新設計正在由諸如英特爾、谷歌、英偉達、高通,以及IBM等公司開發,但目前還不清楚哪家的方法會勝出。似乎至少需要一個CPU來控制這些系統,但是當流數據并行化時,就會需要各種類型的協處理器。
AI的許多數據處理涉及矩陣乘法和加法。大量并行工作的GPU提供了一種廉價的方法,但缺點是更高的功率。具有內置DSP模塊和本地存儲器的FPGA更節能,但它們通常更昂貴。這也是軟件和硬件真正需要共同開發的領域,但許多軟件遠遠落后于硬件。
Mentor Graphics董事長兼首席執行官Wally Rhines表示:“目前,研究和教育機構有大量的活動。有一場新的處理器開發競賽。也有標準的GPU用于深度學習,同時還有很多人在從事CPU的工作。目標是使神經網絡的行為更像人腦,這將刺激一次全新的設計浪潮?!?/p>
當視覺處理開始涉及到AI時,便受到了極大的關注,主要是因為特斯拉在預計推出自動駕駛汽車的15年前就已經提出了自動駕駛概念。這為視覺處理技術,以及為處理由圖像傳感器、雷達和激光雷達收集的數據所需的芯片和整體系統架構開辟了巨大的市場。但許多經濟學家和咨詢公司正尋求超越這個市場,探討AI將如何影響整體生產力。Accenture最近的報道預測,AI將使一些國家的GDP翻番(見下圖2)。雖然這將導致就業機會大幅減少,但整體收入的提高不容忽視。
Synopsys董事長兼聯合首席執行官Aart de Geus指出了電子學的三個浪潮——計算和網絡、移動、數字智能。在后一種類型中,焦點從技術本身轉移到它可以為人們做什么。
“You’ll see processors with neural networking IP for facial recognition and vision processing in automobiles,” said de Geus. “Machine learning is the other side of this. There is a massive push for more capabilities, and the state of the art is doing this faster. This will drive development to 7nm and 5nm and beyond.”
de Geus說:“你將看到具有面部識別和汽車視覺處理的神經網絡IP。機器學習是其另一面。它對于更多的能力會產生一種巨大的推動,目前的技術水平可以快速完成這些。這將推動芯片發展到7nm、5nm,甚至更高的水平。”
目前的方法
自動駕駛中的視覺處理在AI當前研究中占主導地位,但該技術在無人機和機器人中的作用也越來越大。
Achronix公司總裁兼首席執行官Robert Blake說:“對于圖像處理的AI應用,計算復雜度很高。對于無線技術,數學很好理解。對于圖像處理,數學就像西部拓荒,工作負載復雜多變。大概花費5~10年時間才能解決市場問題,但是它對于可編程邏輯肯定會有很大的作用,因為我們需要能夠以高度并行的方式完成的變精度數學?!?/p>
FPGA非常適合矩陣乘法。最重要的是,它的可編程性增加了一些必要的靈活性和面向未來的設計,因為在這一點上,不清楚所謂的智能將存在于一個設計的哪部分。用于做決策的數據一些將在本地處理,一些將在數據中心中處理。但在每個實現中,其百分比可能會改變。
這對AI芯片和軟件設計有很大的影響。雖然AI的大局并沒有太大的變化(大部分所謂的AI更接近于機器學習,而非真正的AI),但是對于如何構建這些系統的理解卻發生了重大的變化。
圖3:谷歌TPU開發板 來源:谷歌
Arteris營銷副總裁Kurt Shuler說:“對于自動駕駛汽車,人們正在做的就是把現有的東西放在一起。為了使一個真正高效的嵌入式系統能夠學習,它需要一個高效的硬件系統。我們采用了幾種不同的方法。如果你關注視覺處理,你要做的是試圖弄清楚器件看到的是什么,以及你如何推斷。這包括來自視覺傳感器、激光雷達和雷達的數據,然后應用專門的算法。這里的很多事情都是試圖模仿大腦中的事情,方法是利用深度卷積神經網絡?!?/p>
它與真正的AI的不同之處是,現有技術水平能夠檢測和避開物體,而真正的AI能夠擁有推理能力,例如如何通過一群人正在橫穿的街道,或判斷玩皮球的小孩子是否會跑到街道上。對于前者,判斷是基于各種傳感器的輸入,而傳感器的輸入是基于海量數據處理和預編程的行為。對于后者,機器能夠作出價值判斷,例如判斷轉彎避開孩子可能會造成的很多結果,并做出最佳選擇。
Shuler說:“傳感器融合是20世紀90年代出現的一種理念。你要把它變成機器可以處理的通用的數據格式。如果你在軍隊里,你擔心有人向你開槍。對于自動駕駛汽車而言,這就像面前有人推嬰兒車。所有這些系統都需要非常高的帶寬,并且都必須在其中內置安全措施。最重要的是,你必須保護數據,因為安全正在成為越來越大的問題。因此,你需要的是計算效率和編程效率?!?/p>
這是今天的許多設計中所缺少的,因為太多的開發是由現成的零件搭建的。
Cadence高級架構師以及深度學習小組總監Samer Hijazi說:“如果你優化網絡、優化問題、最小化位數,并使用為卷積神經網絡定制的硬件,那么你可以實現功率降低2~3倍的改進。效率來自軟件算法和硬件IP?!?/p>
谷歌正嘗試改變這個公式。谷歌開發了Tensor處理單元(TPU),這是專門為機器學習而創建的ASIC。為了加快AI的發展,谷歌在2015年開源了TensorFlow軟件。
其他公司擁有自己的平臺。但這些都不是最終產品。這是進化的過程,沒有人能確定未來十年AI將如何發展。部分是因為AI技術的使用案例正在逐漸被發現。在某個領域里有效的AI技術(如視覺處理)不一定適用于另一個領域(例如確定某種氣味是危險的還是安全的,抑或是二者的組合)。
NetSpeed Systems營銷和業務開發副總裁Anush Mohandass說:“我們在黑暗中摸索,我們知道如何做機器學習和人工智能,但卻不知道它們真正的工作方式。目前的方法是使用大量擁有不同計算能力和不同種類的計算引擎——用于神經網絡應用的CPU、DSP,你需要確定它是有效的。但這只是第一代AI。重點是計算能力和異構性。”
然而,隨著問題的解決變得更有針對性,這有望改變。就像早期版本的物聯網器件一樣,沒有人知道各類市場如何演變,因此系統公司投入了一切,并使用現有的芯片技術將產品推向市場。在智能手表的案例中,結果是電池充電后只能續航幾個小時。隨著針對這些特定應用的新芯片的開發,功耗和性能會實現平衡,方法是更有針對性的功能、本地處理與云處理之間更智能的分布、以及對于設計中的瓶頸的更深入的理解這三者的結合。
ARM模型技術總監Bill Neifert說:“我們的挑戰是找到未知的瓶頸和限制。但根據于工作負載,處理器與軟件的交互方式不同,軟件本質上是并行應用程序。因此,如果你正在考慮工作負載,如金融建模或天氣圖,它們強調基礎系統的方式是不同的。你只能通過深入探索來理解?!?/p>
Neifert指出,軟件方面需要解決的問題需要從更高層次的抽象來看,因為這使得它們更容易約束和修復。這是拼圖的一個關鍵部分。隨著AI進軍更多市場,所有這些技術都需要發展,以達到一般技術行業,特別是半導體行業的同等效率。
Mohandass說:“現在我們發現,如果他們只處理好一種類型的計算,那么架構就會很困難。但異構性的缺點是,將整體分而治之的方法變得土崩瓦解。因此,該解決方案通常涉及到超量供應或供應不足?!?/p>
新方法
隨著AI的應用案例超越了自動駕駛汽車領域,其應用將會擴展。
這就是為什么英特爾去年八月收購了Nervana。Nervana開發了2.5D深度學習芯片,該芯片利用高性能處理器內核,將數據通過中介層移動到高帶寬內存。 Nervana聲稱的目標是,與基于GPU的解決方案相比,該芯片訓練深度學習模型的時間將縮短100倍。
eSilicon營銷副總裁Mike Gianfagna說:“這些看起來很像高性能計算芯片,本質上是使用硅中介層的2.5D芯片。你將需要大量的吞吐量和超高帶寬內存。我們已經看到一些公司在關注它,但尚不足幾十家。它還為時尚早,實現機器學習和自適應算法,以及如何將這些與傳感器和信息流整合,是非常復雜的。例如自動駕駛汽車,它從多個不同的來源串流數據并添加自適應算法,以避免碰撞。”
Gianfagna表示,實現這些器件有兩個挑戰。其一是可靠性和認證。其二是安全。
對于AI,可靠性需要在系統級考慮,其中包括硬件和軟件。ARM在12月收購Allinea提供了一個參照。另一個參照來自斯坦福大學,研究人員試圖量化來自軟件的裁剪計算的影響。他們發現,大規模切割或修剪不會對最終產品產生顯著影響。加州大學伯克利分校已經開發了一個類似的方法,基于的計算接近100%的準確率。
正在研究節能深度學習的斯坦福大學博士研究生韓松說“與精粒修剪相比,粗粒修剪不會降低精度?!彼硎?,斯坦福開發的稀疏矩陣要求計算減少10倍,內存占用減少8倍,比DRAM的能耗減少120倍。它應用于斯坦福所謂的高效語音識別引擎,壓縮導致了推理過程的加快。(Cadence最近的嵌入式神經網絡峰會上提出了這些發現。)
量子計算為AI系統增加了另一個選擇。 Leti首席執行官Marie Semeria表示,量子計算是她的團隊未來的方向之一,特別是AI應用。IBM Research的科學與解決方案團隊副總裁Dario Gil解釋說,使用經典計算,如果四張卡片三藍一紅,那么有四分之一的機會猜中那張紅色的卡片。使用量子計算機和量子比特的疊加和糾纏,通過扭轉糾纏,系統每次都會給出正確答案。
結論
AI不是一件事,因此沒有單一的系統在任何地方都能完美地工作。但AI系統有一些通用要求,如下圖所示。
AI在許多市場都有應用,所有這些都需要廣泛的改進、昂貴的工具,以及支持它們的生態系統。經過多年來依靠萎縮器件來提高功率、性能和成本,如今整個市場部門都在重新思考如何進入新市場。這對于架構師來說是一個巨大的勝利,這為設計團隊增加了巨大的創造性選擇,也將刺激從工具和IP供應商一直到包裝和流程開發的巨大發展。這就像為技術行業按下了重啟按鈕,可以證明,這對于未來整個生態系統的業務都是有益的。
評論