盗墓笔记同人小说,有声,旷世神医

AI 芯片初創(chuàng)公司Lemurian Labs發(fā)明了一種專為AI加速設(shè)計(jì)的新型對(duì)數(shù)數(shù)字格式，并正在構(gòu)建一種芯片，利用它為數(shù)據(jù)中心AI工作負(fù)載服務(wù)。

Lemurian的CEO Jay Dawani說：“2018年，我正在為機(jī)器人訓(xùn)練模型，部分是卷積，部分是Transformer，部分是強(qiáng)化學(xué)習(xí)。在1萬個(gè)Nvidia V100 GPU上訓(xùn)練這個(gè)模型需要6個(gè)月時(shí)間……模型呈指數(shù)級(jí)增長(zhǎng)，但很少有人有足夠的算力來嘗試訓(xùn)練，很多想法就這樣被放棄了。我試圖為那些有偉大想法但卻苦于沒有算力的普通的ML工程師構(gòu)建模型。”

對(duì)Lemurian首款芯片的模擬顯示，根據(jù)H100最新的MLPerf推理基準(zhǔn)測(cè)試結(jié)果，Lemurian的新數(shù)字系統(tǒng)與專門設(shè)計(jì)的芯片相結(jié)合，其性能將優(yōu)于Nvidia的H100。在離線模式下，Lemurian芯片在MLPerf版本的GPT-J中每個(gè)芯片每秒可處理17.54次推理（Nvidia H100在離線模式下每秒可處理13.07次推理）。Dawani說，Lemurian的模擬結(jié)果可能在真實(shí)芯片性能的10%以內(nèi)，但他的團(tuán)隊(duì)打算今后從軟件中榨取更多性能。他說，軟件優(yōu)化加上稀疏性可以將性能再提高3-5倍。

對(duì)數(shù)數(shù)字系統(tǒng)??

Lemurian的秘訣在于該公司提出的新數(shù)字格式，稱之為PAL（parallel adaptive logarithms）。

Dawani說：“作為一個(gè)行業(yè)，我們開始急于采用8位整數(shù)量化，因?yàn)閺挠布慕嵌葋砜矗@是我們所擁有的最有效的東西。但從來沒有軟件工程師說過我想要8位整數(shù)！”

對(duì)于今天的LLM推理而言，INT8的精度已被證明是不夠的，業(yè)界已轉(zhuǎn)向FP8。但Dawani解釋說，AI工作負(fù)載的性質(zhì)意味著數(shù)字經(jīng)常處于亞正常范圍（接近零的區(qū)域），F(xiàn)P8可以表示的數(shù)字較少，因此精度較低。FP8在亞正常范圍內(nèi)的覆蓋率存在差距，這也是許多訓(xùn)練方案需要BF16和FP32等更高精度數(shù)據(jù)類型的原因。

比較各種數(shù)字格式的覆蓋范圍。與CFP8（configurable floating point 8）、INT8（integer 8）和現(xiàn)有LNS8（logarithmic number system 8）相比，Lemurian的8位對(duì)數(shù)數(shù)據(jù)類型PAL8在亞正常范圍的覆蓋率更高。

Dawani的聯(lián)合創(chuàng)始人Vassil Dimitrov提出了一個(gè)想法，即通過使用多基數(shù)和多指數(shù)來擴(kuò)展現(xiàn)有的LNS（logarithmic number system），該系統(tǒng)已在DSP中使用了幾十年。

Dawani說：“我們交錯(cuò)表示多個(gè)指數(shù)，以重現(xiàn)浮點(diǎn)的精度和范圍。這樣就能提供更好的覆蓋范圍……它自然而然地形成了一個(gè)錐形輪廓，在重要的地方，即在亞正常范圍內(nèi)，具有非常高的精度帶。” 這個(gè)精度帶可以進(jìn)行偏置，以覆蓋所需的區(qū)域，這與浮點(diǎn)運(yùn)算的原理類似，但Dawani說，它允許對(duì)偏置進(jìn)行比浮點(diǎn)運(yùn)算更精細(xì)的控制。

Lemurian開發(fā)了從PAL2到PAL64的PAL格式，其中14位格式與BF16相當(dāng)。與FP8相比，PAL8的精度提高了約一個(gè)比特，大小約為INT8的1.2倍。Dawani希望其它公司也能采用這些格式。

他說：“我希望更多的人使用它，因?yàn)槲艺J(rèn)為是時(shí)候擺脫浮點(diǎn)運(yùn)算了。PAL可以應(yīng)用于目前浮點(diǎn)運(yùn)算的任何應(yīng)用，從DSP到HPC以及兩者之間，而不僅僅是AI，盡管這是我們目前的重點(diǎn)。我們更有可能與其它為這些應(yīng)用構(gòu)建芯片的公司合作，幫助他們采用我們的格式。”

對(duì)數(shù)加法器??

由于對(duì)數(shù)加法器簡(jiǎn)化了乘法運(yùn)算，因此在大部分為乘法運(yùn)算的DSP工作負(fù)載中，對(duì)數(shù)加法器已使用了很長(zhǎng)時(shí)間。LNS表示的兩個(gè)數(shù)的乘法就是這兩個(gè)對(duì)數(shù)的加法。然而，將兩個(gè)LNS數(shù)字相加卻比較困難。DSP傳統(tǒng)上使用LUT (large lookup table) 來實(shí)現(xiàn)加法運(yùn)算，雖然效率相對(duì)較低，但如果所需的大部分運(yùn)算都是乘法運(yùn)算，這種方法已經(jīng)足夠好了。

對(duì)于AI工作負(fù)載來說，矩陣乘法需要乘法和加法。Dawani說，Lemurian的秘訣之一就是“在硬件上解決了對(duì)數(shù)加法”。

他說：“我們完全摒棄了LUT，創(chuàng)建了一個(gè)純對(duì)數(shù)加法器。我們有一個(gè)比浮點(diǎn)精確得多的精確加法器。我們?nèi)栽谶M(jìn)行更多優(yōu)化，看看能否使它更便宜、更快速。它的PPA（power, performance, area）已經(jīng)比FP8高出兩倍多。” Lemurian已經(jīng)為這款加法器申請(qǐng)了多項(xiàng)專利。

他說：“DSP界以研究工作負(fù)載并從數(shù)值上理解它在尋找什么著稱，然后加以利用并將其轉(zhuǎn)化為芯片。這與我們正在做的事沒有什么不同。我們并沒有構(gòu)建一個(gè)只做一件事的ASIC，而是研究了整個(gè)神經(jīng)網(wǎng)絡(luò)空間的數(shù)值，并構(gòu)建了一個(gè)具有適度靈活性的特定領(lǐng)域架構(gòu)。”

Lemurian數(shù)據(jù)流架構(gòu)的高級(jí)視圖。該芯片是圍繞該公司的對(duì)數(shù)數(shù)字系統(tǒng)設(shè)計(jì)的。

軟件堆棧??

以高效的方式實(shí)現(xiàn)PAL格式需要硬件和軟件。

Dawani說：“我們花了很多心思去思考如何讓硬件更容易編程，因?yàn)槌悄隳苁紫忍岣吖こ處煹纳a(chǎn)力，否則任何架構(gòu)都不會(huì)成功。我寧愿有一個(gè)糟糕的硬件架構(gòu)和一個(gè)優(yōu)秀的軟件堆棧，而不是相反。”

他說，Lemurian在開始考慮硬件架構(gòu)之前，就已經(jīng)構(gòu)建了大約40%的編譯器。如今，Lemurian的軟件堆棧已經(jīng)開始運(yùn)行，Dawani希望保持它的完全開放性，這樣用戶就可以編寫自己的內(nèi)核和融合程序。

軟件堆棧包括Lemurian的混合精度對(duì)數(shù)量化器Paladynn，它可以將浮點(diǎn)和整數(shù)工作負(fù)載映射到PAL格式，同時(shí)保持精度。

他說：“我們采用了神經(jīng)架構(gòu)搜索中的許多想法，并將其應(yīng)用于量化，因?yàn)槲覀兿胱屵@部分變得簡(jiǎn)單。”

Dawani說，雖然卷積神經(jīng)網(wǎng)絡(luò)的量化相對(duì)容易，但transformer卻并非如此。激活函數(shù)中存在異常值，需要更高的精度，因此transformer總體上可能需要更復(fù)雜的混合精度方法。不過，Dawani說，他正在關(guān)注多項(xiàng)研究工作，這些工作表明，到Lemurian的芯片上市時(shí)，transformer可能就不再流行了。

未來的AI工作負(fù)載可能會(huì)遵循Google的Gemini等公司設(shè)定的路徑，即運(yùn)行非確定的步數(shù)。他說，這打破了大多數(shù)硬件和軟件堆棧的假設(shè)。

他說：“如果你事先不知道你的模型需要運(yùn)行多少步，你該如何安排它，你需要在多少計(jì)算上安排它？你需要的是更動(dòng)態(tài)的東西，這影響了我們的很多想法。”

該芯片將是一款300W的數(shù)據(jù)中心加速器，配備128GB HBM3，可提供3.5POPS的密集算力（稀疏性將稍后推出）。總體而言，Dawani的目標(biāo)是打造一款性能優(yōu)于H100的芯片，并使其價(jià)格與Nvidia上一代A100相當(dāng)。目標(biāo)應(yīng)用包括內(nèi)部AI服務(wù)器（任何行業(yè)）和一些二級(jí)或?qū)I(yè)云公司（非超大規(guī)模公司）。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

dsp

dsp

+關(guān)注

關(guān)注
554

文章
8059

瀏覽量
350510
HPC

HPC

+關(guān)注

關(guān)注
0

文章
324

瀏覽量
23861
GPU芯片

GPU芯片

+關(guān)注

關(guān)注
1

文章
303

瀏覽量
5902
AI芯片

AI芯片

+關(guān)注

關(guān)注
17

文章
1908

瀏覽量
35223

原文標(biāo)題：DSP數(shù)學(xué)能否在AI領(lǐng)域戰(zhàn)勝GPU？

文章出處：【微信號(hào)：Astroys，微信公眾號(hào)：Astroys】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

在Frame-sync的傳送方式下，ADS1274數(shù)據(jù)輸出引腳如何與DSP的McBSP接口連接呢？

引腳呢？還想請(qǐng)問下，在Frame-sync的傳送方式下，ADS1274數(shù)據(jù)輸出引腳如何與DSP的McBSP接口連接

發(fā)表于 02-07 06:58

支付寶發(fā)布新一代AI視覺搜索“探一下”

支付寶近日正式推出了基于自研多模態(tài)大模型技術(shù)的新一代AI視覺搜索產(chǎn)品——“探一下”。這一創(chuàng)新產(chǎn)品的問世，標(biāo)志著支付寶在

發(fā)表于 12-31 10:49 ?188次閱讀

GPU是如何訓(xùn)練AI大模型的

在AI模型的訓(xùn)練過程中，大量的計(jì)算工作集中在矩陣乘法、向量加法和激活函數(shù)等運(yùn)算上。這些運(yùn)算正是GPU所擅長(zhǎng)的。接下來，AI部落小編帶您了解

發(fā)表于 12-19 17:54 ?248次閱讀

使用 AMD Versal AI 引擎釋放 DSP 計(jì)算的潛力

“Versal AI 引擎可以在降低功耗預(yù)算的情況下提高 DSP 計(jì)算密度，”高級(jí)產(chǎn)品營(yíng)銷經(jīng)理 Udayan Sinha 表示。這種效率使 Versal

發(fā)表于 11-29 14:07 ?660次閱讀

請(qǐng)問一下ADS1118-Q1的內(nèi)部基準(zhǔn)電壓是多少呢？

請(qǐng)問一下ADS1118-Q1的內(nèi)部基準(zhǔn)電壓是多少呢？謝。

發(fā)表于 11-26 06:25

《算力芯片高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得：GPU革命：從圖形引擎到AI加速器的蛻變

線程調(diào)度，與Hopper架構(gòu)的細(xì)粒度同步機(jī)制，使得異構(gòu)計(jì)算場(chǎng)景下的任務(wù)協(xié)同更加靈活。在我的分布式訓(xùn)練實(shí)踐中，這些特性顯著提升了模型收斂速度。張量處理器的設(shè)計(jì)是本書點(diǎn)睛之筆。從數(shù)學(xué)抽象來看，張量統(tǒng)

發(fā)表于 11-24 17:12

TX7316使用換能器的中心頻率在45MHz，請(qǐng)問一下TX7316評(píng)估板可以使用嗎？

TX7316使用換能器的中心頻率在45MHz，請(qǐng)問一下TX7316評(píng)估板可以使用嗎？激勵(lì)電路能否激勵(lì)那么高頻率的換能器呢？謝謝

發(fā)表于 11-21 07:39

使用NDT2955代替2N6804,有沒有人幫忙分析一下無輸出的原因和能否替代？

在XTR111的應(yīng)用電路中，電路無輸出(圖1），我看到有人使用請(qǐng)問能否使用SS8550代替2N2907,使用BSP170P代替2N6804,請(qǐng)問能否

發(fā)表于 11-10 17:01

TL084能否采用-5V和+ 32V的非對(duì)稱雙電源供電呢？

看手冊(cè)雙電源最高支持到+-20V，單電源是4.5V到40V。請(qǐng)問一下能否采用-5V和+ 32V的非對(duì)稱雙電源供電呢？

發(fā)表于 07-29 06:50

為什么GPU對(duì)AI如此重要？

GPU在人工智能中相當(dāng)于稀土金屬，甚至黃金，它們?cè)诋?dāng)今生成式人工智能時(shí)代中的作用不可或缺。那么，為什么GPU在人工智能發(fā)展中如此重要呢？什么

發(fā)表于 05-17 08:27 ?804次閱讀

AI訓(xùn)練，為什么需要GPU？

隨著由ChatGPT引發(fā)的人工智能熱潮，GPU成為了AI大模型訓(xùn)練平臺(tái)的基石，甚至是決定性的算力底座。為什么GPU能力壓CPU，成為炙手可熱的主角呢？要回答這個(gè)問題，首先需要了解當(dāng)前人

發(fā)表于 04-24 08:05 ?1075次閱讀

請(qǐng)問一下PLC能控制哪些電機(jī)呢？

PLC具有廣泛的應(yīng)用范圍，能夠控制多種類型的電機(jī)。以下是一些常見的PLC可以控制的電機(jī)類型

發(fā)表于 04-16 10:32 ?947次閱讀

國(guó)產(chǎn)GPU在AI大模型領(lǐng)域的應(yīng)用案例一覽

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）近一年多時(shí)間，隨著大模型的發(fā)展，GPU在AI領(lǐng)域的重要性再次凸顯。雖然相比英偉達(dá)等國(guó)際大廠，國(guó)產(chǎn)

發(fā)表于 04-01 09:28 ?4147次閱讀

FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈?b class='flag-5'>GPU

，這使其在 AI 應(yīng)用中面臨著一些挑戰(zhàn)。 Larzul 表示，想要解決這些問題的解決方案便是實(shí)現(xiàn)現(xiàn)場(chǎng)可編程門陣列 (FPGA)，這也是他們公司的研究領(lǐng)域。FPGA 是

發(fā)表于 03-21 15:19

英偉達(dá)AI服務(wù)器NVLink版與PCIe版有何區(qū)別？又如何選擇呢？

在人工智能領(lǐng)域，英偉達(dá)作為行業(yè)領(lǐng)軍者，推出了兩種主要的GPU版本供AI服務(wù)器選擇——NVLink版（實(shí)為SXM版）與PCIe版。這兩者有何本質(zhì)區(qū)別？又該如何根據(jù)應(yīng)用場(chǎng)景做出最佳選擇

發(fā)表于 03-19 11:21 ?5977次閱讀