前言:這半年日子過得有點困苦,(請走過路過的朋友多多請我吃飯咖啡),為了在苦中有點開心的事情,我決定用業余時間來八卦公司。
如果說IT硬件行業三大項:計算,存儲和網絡。我十年修習網絡,十年修習計算(僅半邊),至于存儲,存儲我認識專家。從業經驗么,我待過四家公司,我肯定避開這四家公司。
結合這種背景,來看我僅代表個人觀點的八卦。
1.2019 Hot Chips一鳴驚人
Cerebras是2019年HotChips大會上一鳴驚人的。Wafer Scale,可著一個wafer能出的最大芯片尺寸出的,1.2T的晶體管,超過EDA工具的能力了,40萬個AI核,18GB的片上Memory, 100Pbit/s的Fabric帶寬。
做世界第一大芯片,難不難?難到超綱,本來是有一個Reticlesize的約束的。上一次試圖做類似嘗試的公司,在1980年代燒光了$230million美金(wow,美國的VC們很有錢很有野心么),還留了一句,大約要等上100年,才能成功的話。無論Cerebras的AI做得成不成功,至少大芯片做得很成功,超摩爾定律的那種成功。
46,225平方毫米,約等于462平方厘米
2.公司財務與核心成員
Cerebras在2016年成立,A輪融了$27 million, B輪$25million,C輪$60milion,最近的D輪融了 $88 million,就是一共$200million (2億美金),一共200人。這是一家估值在3年前,C輪就到近9億的公司,就算是10億美金的公司吧。
第一顆芯片,16nm,按Gartner2017年的數字,費用大約$80 million。因為Cerebras的難度,還有做系統的費用,我覺得研發至少得花了$100 million吧。如果一個工程師,一年的開銷是$150K,200人,一年$30 million。好在前兩年不會有那么多的人,薪資這塊算$50million,因此帳上應該還有$50 million吧。第二顆芯片的投片之前,得再融一輪吧。
公司的CEO,也是一個人物,成功創建了SeaMicro(熟,做服務器的) ,然后2012年成功的賣給AMD。CTO 早在1990年代,在Sun的時代(那時的Sun如日中天)就是一個芯片設計工程師,做過AMD的fellow。
看看其它核心成員,一水的SeaMicro + AMD的經歷,這是一個成熟的創業團隊(團隊組的早,創業創的好)。
CEO:Andrew Feldman
Chief Hardware Architect:Sean Lie
Chief System Architect:Jean-PhilippeFricker
Chief Software Architect:MichaelJames
3.產品
為什么選Cerebras這種創業公司開始寫?我其實寫NVIDIA寫了幾個月了,產品線才剛剛理明白。Cerebras統共就一顆芯片WSE1,一個參考系統CS-1,明年出第二代產品,估計把數字換成2就行了,多么簡單明了。
3.1 回溯歷史與產品規劃的Inside Out
這家公司,我覺得算是典型的Inside Out的產品規劃思路。(剛剛上過的產品課程。Inside Out是指把團隊能力輸出成產品,然后在世界上尋找可以解決的問題,這種產品規劃模式;相對的是Outside In,先確定一個要解決的問題,把解決方式提煉為產品的過程)。
這個團隊的能力是搭建眾核系統的能力, sea of cores, 什么core并不重要,AMD當年收購SeaMicro是為了 Freedom Fabric ASIC Technology,2012年的Freedom Fabric是一個顆獨立的芯片,可以用2.5Gbps接口,以3D torus的方式連接512個處理器。我找了一張舊圖如下。
如果按照這個套路,拿眾核系統來看有什么問題可以解決,那么AI是選中的問題。2016年就選定AI training做目標問題,這個眼光,還是很可以的。
3.2 為什么做超級大芯片與做超級大芯片難在哪里
在AI領域,做超大系統,是一件正確的事情么?
回答:不但正確,而且是競爭激烈的巔峰之戰。
(BTW,這是CTO的角度,像我這種,打算修煉為CMO-chief marketing officer其實并不贊成這種軍備競賽似的大系統,物美價優的云服務才是主航道)
Google TPU:我的multi-pods可以支持最高到4K芯片集聯(128*32 mesh拓撲)。
NVIDIA:我不但有售價近20萬美金的DGX系統,我還能組合1,000個GPU成為SuperPOD (200Gb/s IB network)呢,而且SuperPOD和SuperPOD還能互聯成更大系統呢,知道我為什么買Mellanox了吧。
Graphcore:我們8個芯片的系統才賣3萬5(美金)。我們有自有的IPU-Fabric(3D ring 拓撲),可以搭64,000個IPU的超級系統。(這是我打算八卦的第二個公司)
Cerebras:我們就是一個支持40萬個核的平淡無奇的小AI系統吧。買兩個系統有折扣,就500萬美金
把一個超大系統做在一個芯片里,難么?
回答:難
首先光刻機能加工的最大尺寸die,這個限制叫Reticlesize,如下圖左;其次突破Reticle size的限制,我們采取例如CoWoS這種封裝技術,如下圖中,拿兩個die拼一個大芯片;但是Cerebras是如下圖右,通過cross-die connectivity 連接了84個die。
在Cerebras給出的需要解決的挑戰問題中,如何做cross-die的互聯,排在第一位。代價比想象得低,只多了一層mask。Yield問題解決的也很漂亮。Hot Chips 2019的資料已經公開,太設計相關的細節我就不詳細展開了,大家有興趣的,可以自行參考。
編者補充:當蝕刻電路時,晶圓會產生一些無法修復的缺陷區域。在同樣的缺陷分布下,晶圓分割的數量越少,裸片越大,缺陷的影響就越大。因此Cerebras必須建立冗余電路、繞過缺陷。
有了芯片,高達15KW的功耗,供電冷卻都是問題,系統也難做。
一個好的產品經理,往往都卡著產業界的極限設計產品。因此突破一個極限之后,等待工程師的是連續的極限挑戰。Cerebras就是這樣的一個,連續挑戰極限的產品與系統。它的商業成功很難預計,但是從技術突破的角度看,有很多看點。我對它的第二代產品,還是蠻有期待的。
打破了的極限,就是產業界的能力。TSMC已經放出消息來,打算2年之內,把這個wafer-scale芯片技術商業化。我甚至對第二家打算走這條路的公司,都有所期待了。
責任編輯:haq
-
芯片
+關注
關注
459文章
52352瀏覽量
438510 -
帶寬
+關注
關注
3文章
993瀏覽量
42001 -
IT
+關注
關注
2文章
892瀏覽量
64298 -
AI
+關注
關注
88文章
34765瀏覽量
276883
發布評論請先 登錄
智芯公司安全藍牙芯片獲得BQB權威認證
柵極驅動芯片最大開關頻率的估算方法


微軟成英偉達AI芯片最大客戶,今年采購量激增
ADS8578S設置最大輸入信號+/-10V,如果輸入信號超出了這個范圍會有什么后果?
英國公司推出無芯片、無金屬的紙質RFID標簽……

富士康將在墨西哥建設全球最大英偉達芯片廠
今日看點丨富士康:正在建設全球最大的英偉達超級芯片工廠;傳理想汽車智能駕駛SoC芯片年底前完成流片
當前主流的大模型對于底層推理芯片提出了哪些挑戰
世界先進和恩智浦合資成立VSMC公司
芯海科技閃耀2023世界計算大會:EC芯片引領計算新變革

評論