在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

TensorRT和Triton助力微信OCR降低耗時和成本

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-13 14:44 ? 次閱讀

簡介

? 本案例中通過NVIDIA T4 GPUTensorRT和Triton, 幫助微信OCR降低整體耗時46%, 并將系統的失敗率降低81%,同時降低了高達78%的服務器數量。

? 本案例主要應用到 NVIDIA GPU ,TensorRT和Triton。

客戶簡介

騰訊微信是一款跨平臺的通訊工具。支持通過手機網絡發送語音、圖片、視頻和文字等。截至2021年6月,微信在全球擁有超過12億活躍用戶,是國內活躍用戶最多的社交軟件。

微信識物是一款主打物品識別的 AI 產品,通過相機拍攝物品,更高效、更智能地獲取信息。2020 年,微信識物拓展了更多識別場景,上線了微信版的圖片搜索。打開微信掃一掃,左滑切換到“識物”功能,對準想要了解的物品正面,可以獲取對應的物品信息,包括物品百科、相關資訊、相關商品。

2021年1月, 微信發布的微信8.0,版本更新支持圖片文字提取的功能。用戶在聊天界面和朋友圈中長按圖片就可以提取圖片中文字,然后一鍵轉發、復制或收藏。

挑戰

微信識物包含檢測、圖像召回、信息提煉等環節,OCR主要包括識別和檢測,這兩種應用都有非常大的計算量,在用Pytorch進行模型的推理時,一方面時延特別大,導致用戶體驗受損;另一方面,顯存占用很大,單張NVIDIA T4上部署的模型數比較少,導致推理請求的并發數上不去,請求失敗的概率太高,只能通過增加機器的方式來提高并發能力,業務部署成本較高。再次,使用的模型經常變化,而業務需要更換后的模型能夠快速地加速和上線部署。

方案

基于以上挑戰,騰訊微信選擇了采用NVIDIA 的TensorRT對模型進行推理加速,并利用NVIDIA Triton推理服務器在T4 GPU上進行在線部署,在提升用戶體驗的同時,大幅降低了服務成本。

1、 通過使用TensorRT對微信識物和OCR的模型進行加速,在都使用FP32的情況下,與Pytorch相對,時延降低50%左右。

2、 在OCR的識別和檢測階段,使用TensorRT結合NVIDIA T4 GPU 的FP16 Tensor Core,在保證精度的同時,識別的時延進一步降低了50%,檢測降低了20%。

3、 在微信識物的分類和檢測任務中,通過使用NVIDIA T4 GPU 的int8 Tensor Core,并結合QAT,在滿足精度要求的前提下,進一步大幅提升了性能。

4、 通過使用FP16和int8 低精度模式,在大幅降低推理時延的同時,大大減少了顯存的占用,在FP16模式下,單模型顯存占用僅占FP32模式的40%–50%, 而在int8模式下,單模型顯存占用僅占FP32模式的30%左右。在提高單張T4卡上部署的模型數量的同時,大幅提高了單GPU的推理請求并發能力。

5、 Triton的dynamic batch和多實例等特性,幫助微信將在滿足時延要求的同時,提高了系統整體的并發能力,將系統失敗降低了81%。

6、 TensorRT可以對模型進行快速的加速,Triton則可以對加速后的模型進行快速的部署,滿足了業務對修改后的模型進行快速部署的需求,同時也大大減少了工程人員的工作量。

效果

通過使用NVIDIA的TensorRT對微信識物和OCR的模型進行加速,在降低單次推理時延50%以上的同時,節約了多達64%的顯存。結合Triton的dynamic batch和多實例的功能,OCR的整體時延降低了46%,系統失敗率降低了81%。大大提高了用戶的體驗,并且服務器的數量減少了多達78%,極大降低了服務的成本。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5078

    瀏覽量

    103767
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4783

    瀏覽量

    129381
  • 服務器
    +關注

    關注

    12

    文章

    9321

    瀏覽量

    86100
收藏 人收藏

    評論

    相關推薦

    租用站群服務器時如何降低成本?

    在租用站群服務器時,降低成本是許多站群管理者關注的重要問題。主機推薦小編為您整理發布租用站群服務器時如何降低成本,以下是一些實用的策略和建議,有助于在保持性能的同時降低租用成本
    的頭像 發表于 01-22 10:45 ?85次閱讀

    NVIDIA技術助力Pantheon Lab數字人實時交互解決方案

    、NVIDIA Triton,Pantheon Lab 訓練速度提高 10 倍、推理延遲降低 50%,以及用戶參與度提升 30%。這些進步使對話式 AI 能夠提供實時且真實的互動,使 Pantheon Lab 在數字人技術不斷革新。
    的頭像 發表于 01-14 11:19 ?267次閱讀

    Triton編譯器與GPU編程的結合應用

    Triton編譯器簡介 Triton編譯器是一種針對并行計算優化的編譯器,它能夠自動將高級語言代碼轉換為針對特定硬件優化的低級代碼。Triton編譯器的核心優勢在于其能夠識別并行模式,自動進行代碼
    的頭像 發表于 12-25 09:13 ?332次閱讀

    Triton編譯器如何提升編程效率

    在現代軟件開發中,編譯器扮演著至關重要的角色。它們不僅將高級語言代碼轉換為機器可執行的代碼,還通過各種優化技術提升程序的性能。Triton 編譯器作為一種先進的編譯器,通過多種方式提升編程效率,使得
    的頭像 發表于 12-25 09:12 ?340次閱讀

    Triton編譯器的優化技巧

    在現代計算環境中,編譯器的性能對于軟件的運行效率至關重要。Triton 編譯器作為一個先進的編譯器框架,提供了一系列的優化技術,以確保生成的代碼既高效又適應不同的硬件架構。 1. 指令選擇
    的頭像 發表于 12-25 09:09 ?345次閱讀

    Triton編譯器的優勢與劣勢分析

    Triton編譯器作為一種新興的深度學習編譯器,具有一系列顯著的優勢,同時也存在一些潛在的劣勢。以下是對Triton編譯器優勢與劣勢的分析: 優勢 高效性能優化 : Triton編譯器通過塊級數
    的頭像 發表于 12-25 09:07 ?403次閱讀

    Triton編譯器在機器學習中的應用

    1. Triton編譯器概述 Triton編譯器是NVIDIA Triton推理服務平臺的一部分,它負責將深度學習模型轉換為優化的格式,以便在NVIDIA GPU上高效運行。Triton
    的頭像 發表于 12-24 18:13 ?523次閱讀

    Triton編譯器的常見問題解決方案

    Triton編譯器作為一款專注于深度學習的高性能GPU編程工具,在使用過程中可能會遇到一些常見問題。以下是一些常見問題的解決方案: 一、安裝與依賴問題 檢查Python版本 Triton編譯器通常
    的頭像 發表于 12-24 18:04 ?804次閱讀

    Triton編譯器支持的編程語言

    Triton編譯器支持的編程語言主要包括以下幾種: 一、主要編程語言 Python :Triton編譯器通過Python接口提供了對Triton語言和編譯器的訪問,使得用戶可以在Python環境中
    的頭像 發表于 12-24 17:33 ?469次閱讀

    Triton編譯器與其他編譯器的比較

    Triton編譯器與其他編譯器的比較主要體現在以下幾個方面: 一、定位與目標 Triton編譯器 : 定位:專注于深度學習中最核心、最耗時的張量運算的優化。 目標:提供一個高度抽象、靈活、高效
    的頭像 發表于 12-24 17:25 ?488次閱讀

    Triton編譯器功能介紹 Triton編譯器使用教程

    Triton 是一個開源的編譯器前端,它支持多種編程語言,包括 C、C++、Fortran 和 Ada。Triton 旨在提供一個可擴展和可定制的編譯器框架,允許開發者添加新的編程語言特性和優化技術
    的頭像 發表于 12-24 17:23 ?663次閱讀

    TensorRT-LLM低精度推理優化

    本文將分享 TensorRT-LLM 中低精度量化內容,并從精度和速度角度對比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA TensorRT Model
    的頭像 發表于 11-19 14:29 ?466次閱讀
    <b class='flag-5'>TensorRT</b>-LLM低精度推理優化

    降低成本城域網

    電子發燒友網站提供《降低成本城域網.pdf》資料免費下載
    發表于 10-12 11:46 ?0次下載
    <b class='flag-5'>降低成本</b>城域網

    能源管理系統如何降低運維成本?

    智能運維管理系統、電能集抄系統、移動端app的應用,有效降低了人工成本和運維成本,優化了運行策略,實現了設備的使用壽命延長,降低了運維成本。
    的頭像 發表于 04-16 14:45 ?608次閱讀
    能源管理系統如何<b class='flag-5'>降低</b>運維<b class='flag-5'>成本</b>?

    在AMD GPU上如何安裝和配置triton

    最近在整理python-based的benchmark代碼,反過來在NV的GPU上又把Triton裝了一遍,發現Triton的github repo已經給出了對應的llvm的commit id以及對應的編譯細節,然后跟著走了一遍,也順利的安裝成功,只需要按照如下方式即可完
    的頭像 發表于 02-22 17:04 ?2615次閱讀
    在AMD GPU上如何安裝和配置<b class='flag-5'>triton</b>?
    主站蜘蛛池模板: 五月激情综合网 | 老师你好滑下面好湿h | 国产精品久久久久国产精品三级 | 欧美午夜视频一区二区 | 在线观看三级网站 | 高清午夜毛片 | 中文字幕区 | 四虎成人免费观看在线网址 | 亚洲午夜久久久久久91 | 日本视频黄色 | 亚洲精品美女久久久久网站 | 色多多福利 | 日本特黄视频 | 天天躁夜夜 | xxxx欧美| 男人的天堂免费视频 | 亚洲午夜精品在线 | 69堂在线观看国产成人 | 一级片免费视频 | 久久国产精品99久久久久久老狼 | 久久毛片视频 | 毛片色毛片18毛片美女 | 四虎永久免费影院 | 亚洲一区二区三区在线视频 | 日本媚薬痉挛在线观看免费 | 欧美亚洲韩国国产综合五月天 | 亚洲日本色图 | 久久久久久久久综合影视网 | h视频日本 | 欧美福利视频网站 | 免费一级毛片无毒不卡 | 夜夜bb | 亚洲一区小说区中文字幕 | 免费观看国产网址你懂的 | 国产高清色播视频免费看 | 一级做a爰片久久毛片免费 一级做a爰片久久毛片免费看 | 小说老卫陈红张敏陈法蓉 | 五月国产综合视频在线观看 | 在线精品小视频 | 欧美成人精品久久精品 | 国产一级特黄aa大片免费 |