在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Groq推出大模型推理芯片 超越了傳統(tǒng)GPU和谷歌TPU

汽車電子設計 ? 來源:芝能汽車 ? 2024-02-26 10:24 ? 次閱讀

Groq推出了大模型推理芯片,以每秒500tokens的速度引起轟動,超越了傳統(tǒng)GPU和谷歌TPU。該芯片采用了全球首個LPU方案,解決了計算密度和內存帶寬的瓶頸,推理速度提高了10倍,成本降低十分之一,性價比提高了100倍。芯片搭載了230MB大SRAM,內存帶寬高達80TB/s,算力強大,支持多種機器學習框架進行推理。 Groq在演示中展示了多種模型的強大性能,并宣稱在三年內將超越英偉達產品特色包括API訪問速度快、支持多種開源LLM模型、價格優(yōu)勢等,成為大模型推理領域的新興力量。

Groq 公司的創(chuàng)始于2016年,旗艦產品是 Groq Tensor Streaming Processor Chip(TSP)和相應的軟件,主要應用于人工智能、機器學習、深度學習等領域。目標市場包括人工智能和機器學習超大規(guī)模應用、政府部門、高性能計算集群、自動駕駛車輛以及高性能邊緣設備。

Groq產品以其出色的推理性能、對多種開源LLM模型的支持以及具有競爭力的價格政策等特色,成為一個引人注目的選擇。這個芯片到底是怎么做的呢?

6563bedc-d440-11ee-a297-92fbcf53809c.png

Part 1

Groq的做法

隨著人工智能(AI)和高性能計算(HPC)的融合發(fā)展,對于同時處理AI和HPC工作負載的需求日益增加。在這一背景下,Groq公司推出了其最新的AI推理加速器,旨在簡化計算、提高效率,并實現(xiàn)更高的可擴展性,軟件定義張量流多處理器(TSP),采用了一種全新的硬件軟件結合的方法,為人工智能、機器學習和深度學習應用提供更高效的計算支持。

Groq AI推理加速器的設計思想是結合了HPC與AI的工作負載需求,提供了一種創(chuàng)新的可擴展計算架構。

相比傳統(tǒng)的GPU,GroqChip 1具有更簡化的編程模型,更高的響應速度以及更可靠的執(zhí)行。該芯片擁有多個特色組件,包括高速網絡、數據交換器、指令控制、SRAM內存以及Groq TruePoint矩陣,使其具備了強大的計算能力和靈活性。

傳統(tǒng)的 CPU 架構在控制邏輯方面隱藏了大量復雜性,如緩存、預取、亂序執(zhí)行和分支預測,但這些控制邏輯會減少可用于原始計算的面積。

與此相反,Groq 公司重新審視了硬件軟件的合約,創(chuàng)造出了更加可預測和基于流的硬件,并將更多的控制權交給了軟件。

硬件(CPU)定義了軟件,但隨著數據流型計算需求的增長以及摩爾定律和 Dennard 縮放的減速,CPU“抽象”不再是軟件開發(fā)的唯一基礎。因此,Hennessy 和 Patterson 提出了“計算機體系結構的新黃金時代”的觀點,Lattner 提出了“編譯器的新黃金時代”的觀點,Karpathy 則提出了“軟件 2.0”的概念,這都預示著硬件與軟件的抽象合約已經重新開啟,實現(xiàn)了“軟件定義硬件”的機會。

GroqChip 的可擴展架構以簡化計算,通過使用大量單級劃分 SRAM 和顯式分配張量,實現(xiàn)了可預測的性能。

此外,Groq 公司設計了功能劃分的微體系結構,重新組織了多核網格,使得編譯器可以對程序執(zhí)行進行精確控制,從而提高了執(zhí)行效率。

659b1602-d440-11ee-a297-92fbcf53809c.png

Groq AI推理加速器支持各種規(guī)模的計算節(jié)點,從單個卡片到整個機架,都能實現(xiàn)高效的并行計算。

65aae5d2-d440-11ee-a297-92fbcf53809c.png

通過GroqRack和GroqNode等組件的組合,用戶可以根據實際需求靈活搭建計算集群,實現(xiàn)對不同規(guī)模工作負載的處理。

Groq 公司提供了強大的編譯器支持,通過在編譯時和運行時之間建立靜態(tài)-動態(tài)接口和硬件-軟件接口,賦予了軟件更多的數據編排權力。該編譯器能夠實現(xiàn) SOTA(State of the Art)級別的性能,對于一些重要的矩陣操作如通用矩陣乘法(GEMM),Cholesky 分解等,取得了令人矚目的成果。

65aff626-d440-11ee-a297-92fbcf53809c.png

在系統(tǒng)拓撲結構方面,Groq 公司采用了低直徑網絡 Dragonfly,以最小化網絡中的跳數,提高了數據傳輸效率。

同時,通過 Chip-to-Chip(C2C)鏈接和流量控制,實現(xiàn)了多芯片間的通信。此外,Groq 公司還提出了一種多芯片間的分區(qū)和流水線并行執(zhí)行的方法,以進一步提高多芯片系統(tǒng)的性能。

65b4d1f0-d440-11ee-a297-92fbcf53809c.png

Part 2

實際案例

除了傳統(tǒng)的計算流體動力學(CFD)應用外,Groq AI推理加速器還可應用于圖神經網絡(GNN)等領域。GNN廣泛應用于非歐幾里得數據的建模和預測,例如化學分子結構、社交媒體推薦系統(tǒng)等。Groq芯片在處理這類非結構化數據時表現(xiàn)出色,通過深度學習算法的加速,能夠大幅提升模型訓練和推理的效率。軟件定義張量流多處理器提供了一種全新的硬件軟件結合的方法,通過重新審視硬件軟件合約,將更多的控制權交給了軟件,從而實現(xiàn)了更高效的計算性能。隨著人工智能和深度學習應用的不斷發(fā)展,這種方法將有望在未來的計算領域發(fā)揮重要作用。

在實際應用中,Groq AI推理加速器已經在化學分子屬性預測、藥物發(fā)現(xiàn)等領域取得了顯著的成果。

65d0a9f2-d440-11ee-a297-92fbcf53809c.png

借助其高性能和可擴展性,Groq芯片在處理大規(guī)模數據集時能夠實現(xiàn)極大的加速,從而提升了科學研究和工程實踐的效率。

65ff0b4e-d440-11ee-a297-92fbcf53809c.png

小結

總的來說,Groq AI推理加速器以其創(chuàng)新的設計思想和強大的性能,在處理融合HPC與AI工作負載的應用中展現(xiàn)出了巨大的潛力。隨著對于高性能計算和人工智能技術的不斷發(fā)展,相信Groq芯片將在各個領域展現(xiàn)出更廣泛的應用前景。

?



審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1804

    文章

    48501

    瀏覽量

    245261
  • 機器學習
    +關注

    關注

    66

    文章

    8481

    瀏覽量

    133905
  • TSP
    TSP
    +關注

    關注

    1

    文章

    25

    瀏覽量

    17071
  • 大模型
    +關注

    關注

    2

    文章

    2959

    瀏覽量

    3700
  • Groq
    +關注

    關注

    0

    文章

    9

    瀏覽量

    122

原文標題:Groq AI推理加速器: 三年內超越英偉達?

文章出處:【微信號:QCDZSJ,微信公眾號:汽車電子設計】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    Google推出第七代TPU芯片Ironwood

    在 Google Cloud Next 25 大會上,我們隆重推出第 7 代 Tensor Processing Unit (TPU) — Ironwood。這不僅是我們迄今為止性能最高、擴展性最佳的定制 AI 加速器,更是第一款專為
    的頭像 發(fā)表于 04-16 11:20 ?342次閱讀
    Google<b class='flag-5'>推出</b>第七代<b class='flag-5'>TPU</b><b class='flag-5'>芯片</b>Ironwood

    谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命

    谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命 Google 發(fā)布 Ironwood,這是其第七代張量處理單元 (TPU
    的頭像 發(fā)表于 04-12 11:10 ?1374次閱讀
    <b class='flag-5'>谷歌</b>第七代<b class='flag-5'>TPU</b> Ironwood深度解讀:AI<b class='flag-5'>推理</b>時代的硬件革命

    谷歌新一代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理的 AI 模型新引擎?

    電子發(fā)燒友網報道(文 / 李彎彎)日前,谷歌在 Cloud Next 大會上,隆重推出了最新一代 TPU AI 加速芯片 ——Ironwood。據悉,該
    的頭像 發(fā)表于 04-12 00:57 ?1772次閱讀

    無法在GPU上運行ONNX模型的Benchmark_app怎么解決?

    在 CPU 和 GPU 上運行OpenVINO? 2023.0 Benchmark_app推斷的 ONNX 模型。 在 CPU 上推理成功,但在 GPU 上失敗。
    發(fā)表于 03-06 08:02

    無法調用GPU插件推理的遠程張量API怎么解決?

    運行了使用 GPU 插件的遠程張量 API 的推理。但是,它未能共享 OpenCL* 內存,但結果不正確。
    發(fā)表于 03-06 06:13

    阿里云開源推理模型QwQ

    近日,阿里云通義團隊宣布推出全新AI推理模型QwQ-32B-Preview,并同步實現(xiàn)開源。這一舉措標志著阿里云在AI推理領域邁出了重要一步。 據評測數據顯示,QwQ預覽版本已具備研
    的頭像 發(fā)表于 11-29 11:30 ?946次閱讀

    《算力芯片 高性能 CPUGPUNPU 微架構分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變

    在數據挖掘工作中,我經常需要處理海量數據的深度學習任務,這讓我對GPU架構和張量運算充滿好奇。閱讀《算力芯片》第7-9章,讓我對這些關鍵技術有全新認識。 GPU架構從早期的固定功能流
    發(fā)表于 11-24 17:12

    FPGA和ASIC在大模型推理加速中的應用

    隨著現(xiàn)在AI的快速發(fā)展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經有專門做推理的ASIC,像Groq的LPU,專門針對大語言
    的頭像 發(fā)表于 10-29 14:12 ?1622次閱讀
    FPGA和ASIC在大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>加速中的應用

    沙特阿美攜手Groq打造全球最大推理數據中心

    石油巨頭沙特阿美與AI芯片創(chuàng)新企業(yè)Groq宣布一項重大合作,雙方將共同在沙特阿拉伯建設一座全球規(guī)模領先的推理數據中心。據Groq官網消息,
    的頭像 發(fā)表于 09-19 18:03 ?883次閱讀

    TPU v1到Trillium TPU,蘋果等科技公司使用谷歌TPU進行AI計算

    ,在訓練尖端人工智能方面,大型科技公司正在尋找英偉達以外的替代品。 ? 不斷迭代的谷歌TPU 芯片 ? 隨著機器學習算法,特別是深度學習算法在各個領域的廣泛應用,對于高效、低功耗的AI計算硬件需求日益增長。
    的頭像 發(fā)表于 07-31 01:08 ?3703次閱讀

    采用創(chuàng)新的FPGA 器件來實現(xiàn)更經濟且更高能效的大模型推理解決方案

    本文根據完整的基準測試,將Achronix Semiconductor公司推出的Speedster7t FPGA與GPU解決方案進行比較,在運行同一個Llama2 70B參數模型時,該項基于FPGA的解決方案實現(xiàn)
    的頭像 發(fā)表于 06-19 15:53 ?490次閱讀
    采用創(chuàng)新的FPGA 器件來實現(xiàn)更經濟且更高能效的大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>解決方案

    谷歌發(fā)布第六代TPU芯片Trillium,挑戰(zhàn)GPT-4o

    分析人士認為,谷歌積極推進自主研發(fā)芯片,按照其規(guī)劃,第七代和第八代產品將分別與聯(lián)發(fā)科、世芯合作生產。此次第六代TPU推出,有望引領CSP(云端服務提供商)廠商投入自研
    的頭像 發(fā)表于 05-16 18:05 ?1792次閱讀

    谷歌推出Trillium AI芯片,性能提高近5倍

    谷歌推出了其最新的人工智能數據中心芯片——Trillium。這款芯片谷歌的第六代產品,與上一代TPU
    的頭像 發(fā)表于 05-16 10:39 ?997次閱讀

    谷歌推出第六代數據中心AI芯片Trillium TPU

    在今日舉行的I/O 2024開發(fā)者大會上,谷歌公司震撼發(fā)布其第六代數據中心AI芯片——Trillium Tensor處理器單元(TPU)。據谷歌
    的頭像 發(fā)表于 05-15 11:18 ?828次閱讀

    進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

    Blackwell GPU,標志著 AI 超級計算的一次重大進步。這種獨特的配置顯著減少傳統(tǒng)網絡擴展時 的通信開銷,使得對 1.8T 參數的模型進行實時推理成為可能,同時將
    發(fā)表于 05-13 17:16
    主站蜘蛛池模板: 日韩亚洲欧美日本精品va | 国产丝袜va丝袜老师 | 九九re6精品视频在线观看 | 色多多拼多多网站 | 色在线看 | 国产男女交性视频播放免费bd | 国产美女动态免费视频 | 美女网站视频一区 | 五月婷婷丁香综合 | 最近新韩国hd视频 | 性生交酡 | 午夜精品久久久久久91 | 黄a在线观看 | 国模在线视频一区二区三区 | 国产美女视频黄a视频全免费网站 | 久草视频这里只有精品 | 第三级视频在线观看 | 国产在线97色永久免费视频 | 亚洲怡红院在线 | 日本三级日产三级国产三级 | 天天狠天天干 | 国产成人午夜片在线观看 | 深夜性久久 | 在线激情网| 国产婷婷色一区二区三区 | 免费一级毛片视频 | 久草3| 香蕉视频在线观看黄 | 天天看天天操 | 亚洲a成人 | 69日本xxxxxxxxx98| 欧美一级黄色片视频 | 老师别揉我胸啊嗯上课呢视频 | 一级片+国产 | 国产欧美日韩视频免费61794 | 国产福利在线观看一区二区 | 乱小说录目伦200篇将曲勒 | 午夜大片在线观看 | 性欧美精品xxxx | 三级毛片在线播放 | 丁香花在线观看免费观看 |