在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

TensorRT和Triton助力微信OCR降低耗時(shí)和成本

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-04-13 14:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

簡介

? 本案例中通過NVIDIA T4 GPUTensorRT和Triton, 幫助微信OCR降低整體耗時(shí)46%, 并將系統(tǒng)的失敗率降低81%,同時(shí)降低了高達(dá)78%的服務(wù)器數(shù)量。

? 本案例主要應(yīng)用到 NVIDIA GPU ,TensorRT和Triton。

客戶簡介

騰訊微信是一款跨平臺(tái)的通訊工具。支持通過手機(jī)網(wǎng)絡(luò)發(fā)送語音、圖片、視頻和文字等。截至2021年6月,微信在全球擁有超過12億活躍用戶,是國內(nèi)活躍用戶最多的社交軟件。

微信識(shí)物是一款主打物品識(shí)別的 AI 產(chǎn)品,通過相機(jī)拍攝物品,更高效、更智能地獲取信息。2020 年,微信識(shí)物拓展了更多識(shí)別場景,上線了微信版的圖片搜索。打開微信掃一掃,左滑切換到“識(shí)物”功能,對(duì)準(zhǔn)想要了解的物品正面,可以獲取對(duì)應(yīng)的物品信息,包括物品百科、相關(guān)資訊、相關(guān)商品

2021年1月, 微信發(fā)布的微信8.0,版本更新支持圖片文字提取的功能。用戶在聊天界面和朋友圈中長按圖片就可以提取圖片中文字,然后一鍵轉(zhuǎn)發(fā)、復(fù)制或收藏。

挑戰(zhàn)

微信識(shí)物包含檢測、圖像召回、信息提煉等環(huán)節(jié),OCR主要包括識(shí)別和檢測,這兩種應(yīng)用都有非常大的計(jì)算量,在用Pytorch進(jìn)行模型的推理時(shí),一方面時(shí)延特別大,導(dǎo)致用戶體驗(yàn)受損;另一方面,顯存占用很大,單張NVIDIA T4上部署的模型數(shù)比較少,導(dǎo)致推理請(qǐng)求的并發(fā)數(shù)上不去,請(qǐng)求失敗的概率太高,只能通過增加機(jī)器的方式來提高并發(fā)能力,業(yè)務(wù)部署成本較高。再次,使用的模型經(jīng)常變化,而業(yè)務(wù)需要更換后的模型能夠快速地加速和上線部署。

方案

基于以上挑戰(zhàn),騰訊微信選擇了采用NVIDIA 的TensorRT對(duì)模型進(jìn)行推理加速,并利用NVIDIA Triton推理服務(wù)器在T4 GPU上進(jìn)行在線部署,在提升用戶體驗(yàn)的同時(shí),大幅降低了服務(wù)成本。

1、 通過使用TensorRT對(duì)微信識(shí)物和OCR的模型進(jìn)行加速,在都使用FP32的情況下,與Pytorch相對(duì),時(shí)延降低50%左右。

2、 在OCR的識(shí)別和檢測階段,使用TensorRT結(jié)合NVIDIA T4 GPU 的FP16 Tensor Core,在保證精度的同時(shí),識(shí)別的時(shí)延進(jìn)一步降低了50%,檢測降低了20%。

3、 在微信識(shí)物的分類和檢測任務(wù)中,通過使用NVIDIA T4 GPU 的int8 Tensor Core,并結(jié)合QAT,在滿足精度要求的前提下,進(jìn)一步大幅提升了性能。

4、 通過使用FP16和int8 低精度模式,在大幅降低推理時(shí)延的同時(shí),大大減少了顯存的占用,在FP16模式下,單模型顯存占用僅占FP32模式的40%–50%, 而在int8模式下,單模型顯存占用僅占FP32模式的30%左右。在提高單張T4卡上部署的模型數(shù)量的同時(shí),大幅提高了單GPU的推理請(qǐng)求并發(fā)能力。

5、 Triton的dynamic batch和多實(shí)例等特性,幫助微信將在滿足時(shí)延要求的同時(shí),提高了系統(tǒng)整體的并發(fā)能力,將系統(tǒng)失敗降低了81%。

6、 TensorRT可以對(duì)模型進(jìn)行快速的加速,Triton則可以對(duì)加速后的模型進(jìn)行快速的部署,滿足了業(yè)務(wù)對(duì)修改后的模型進(jìn)行快速部署的需求,同時(shí)也大大減少了工程人員的工作量。

效果

通過使用NVIDIA的TensorRT對(duì)微信識(shí)物和OCR的模型進(jìn)行加速,在降低單次推理時(shí)延50%以上的同時(shí),節(jié)約了多達(dá)64%的顯存。結(jié)合Triton的dynamic batch和多實(shí)例的功能,OCR的整體時(shí)延降低了46%,系統(tǒng)失敗率降低了81%。大大提高了用戶的體驗(yàn),并且服務(wù)器的數(shù)量減少了多達(dá)78%,極大降低了服務(wù)的成本。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5283

    瀏覽量

    106084
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4926

    瀏覽量

    130956
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    13

    文章

    9757

    瀏覽量

    87591
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用NVIDIA TritonTensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA TritonTensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?471次閱讀
    使用NVIDIA <b class='flag-5'>Triton</b>和<b class='flag-5'>TensorRT</b>-LLM部署TTS應(yīng)用的最佳實(shí)踐

    高能耗時(shí)代,安科瑞能量管理系統(tǒng)如何化解電網(wǎng)能量管理難題?

    電網(wǎng)技術(shù)的提出,為高效利用這些新能源電力提供了重要的技術(shù)方向。? 一、高能耗時(shí)代,電網(wǎng)能量管理面臨哪些挑戰(zhàn)? 在當(dāng)今高能耗時(shí)代,電網(wǎng)能量管理正面臨著諸多嚴(yán)峻挑戰(zhàn),這些挑戰(zhàn)猶如一道道
    的頭像 發(fā)表于 04-01 16:12 ?288次閱讀
    高能<b class='flag-5'>耗時(shí)</b>代,安科瑞能量管理系統(tǒng)如何化解<b class='flag-5'>微</b>電網(wǎng)能量管理難題?

    租用站群服務(wù)器時(shí)如何降低成本?

    在租用站群服務(wù)器時(shí),降低成本是許多站群管理者關(guān)注的重要問題。主機(jī)推薦小編為您整理發(fā)布租用站群服務(wù)器時(shí)如何降低成本,以下是一些實(shí)用的策略和建議,有助于在保持性能的同時(shí)降低租用成本
    的頭像 發(fā)表于 01-22 10:45 ?321次閱讀

    NVIDIA技術(shù)助力Pantheon Lab數(shù)字人實(shí)時(shí)交互解決方案

    、NVIDIA Triton,Pantheon Lab 訓(xùn)練速度提高 10 倍、推理延遲降低 50%,以及用戶參與度提升 30%。這些進(jìn)步使對(duì)話式 AI 能夠提供實(shí)時(shí)且真實(shí)的互動(dòng),使 Pantheon Lab 在數(shù)字人技術(shù)不斷革新。
    的頭像 發(fā)表于 01-14 11:19 ?606次閱讀

    Triton編譯器與GPU編程的結(jié)合應(yīng)用

    Triton編譯器簡介 Triton編譯器是一種針對(duì)并行計(jì)算優(yōu)化的編譯器,它能夠自動(dòng)將高級(jí)語言代碼轉(zhuǎn)換為針對(duì)特定硬件優(yōu)化的低級(jí)代碼。Triton編譯器的核心優(yōu)勢在于其能夠識(shí)別并行模式,自動(dòng)進(jìn)行代碼
    的頭像 發(fā)表于 12-25 09:13 ?789次閱讀

    Triton編譯器的優(yōu)化技巧

    在現(xiàn)代計(jì)算環(huán)境中,編譯器的性能對(duì)于軟件的運(yùn)行效率至關(guān)重要。Triton 編譯器作為一個(gè)先進(jìn)的編譯器框架,提供了一系列的優(yōu)化技術(shù),以確保生成的代碼既高效又適應(yīng)不同的硬件架構(gòu)。 1. 指令選擇
    的頭像 發(fā)表于 12-25 09:09 ?910次閱讀

    Triton編譯器的優(yōu)勢與劣勢分析

    Triton編譯器作為一種新興的深度學(xué)習(xí)編譯器,具有一系列顯著的優(yōu)勢,同時(shí)也存在一些潛在的劣勢。以下是對(duì)Triton編譯器優(yōu)勢與劣勢的分析: 優(yōu)勢 高效性能優(yōu)化 : Triton編譯器通過塊級(jí)數(shù)
    的頭像 發(fā)表于 12-25 09:07 ?1120次閱讀

    Triton編譯器在機(jī)器學(xué)習(xí)中的應(yīng)用

    1. Triton編譯器概述 Triton編譯器是NVIDIA Triton推理服務(wù)平臺(tái)的一部分,它負(fù)責(zé)將深度學(xué)習(xí)模型轉(zhuǎn)換為優(yōu)化的格式,以便在NVIDIA GPU上高效運(yùn)行。Triton
    的頭像 發(fā)表于 12-24 18:13 ?937次閱讀

    Triton編譯器的常見問題解決方案

    Triton編譯器作為一款專注于深度學(xué)習(xí)的高性能GPU編程工具,在使用過程中可能會(huì)遇到一些常見問題。以下是一些常見問題的解決方案: 一、安裝與依賴問題 檢查Python版本 Triton編譯器通常
    的頭像 發(fā)表于 12-24 18:04 ?2842次閱讀

    Triton編譯器支持的編程語言

    Triton編譯器支持的編程語言主要包括以下幾種: 一、主要編程語言 Python :Triton編譯器通過Python接口提供了對(duì)Triton語言和編譯器的訪問,使得用戶可以在Python環(huán)境中
    的頭像 發(fā)表于 12-24 17:33 ?922次閱讀

    Triton編譯器與其他編譯器的比較

    Triton編譯器與其他編譯器的比較主要體現(xiàn)在以下幾個(gè)方面: 一、定位與目標(biāo) Triton編譯器 : 定位:專注于深度學(xué)習(xí)中最核心、最耗時(shí)的張量運(yùn)算的優(yōu)化。 目標(biāo):提供一個(gè)高度抽象、靈活、高效
    的頭像 發(fā)表于 12-24 17:25 ?954次閱讀

    Triton編譯器功能介紹 Triton編譯器使用教程

    Triton 是一個(gè)開源的編譯器前端,它支持多種編程語言,包括 C、C++、Fortran 和 Ada。Triton 旨在提供一個(gè)可擴(kuò)展和可定制的編譯器框架,允許開發(fā)者添加新的編程語言特性和優(yōu)化技術(shù)
    的頭像 發(fā)表于 12-24 17:23 ?1619次閱讀

    TensorRT-LLM低精度推理優(yōu)化

    本文將分享 TensorRT-LLM 中低精度量化內(nèi)容,并從精度和速度角度對(duì)比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA TensorRT Model
    的頭像 發(fā)表于 11-19 14:29 ?1181次閱讀
    <b class='flag-5'>TensorRT</b>-LLM低精度推理優(yōu)化

    降低成本城域網(wǎng)

    電子發(fā)燒友網(wǎng)站提供《降低成本城域網(wǎng).pdf》資料免費(fèi)下載
    發(fā)表于 10-12 11:46 ?0次下載
    <b class='flag-5'>降低成本</b>城域網(wǎng)
    主站蜘蛛池模板: 视频在线播放免费 | 国模私拍在线 | 午夜精品久久久久久久四虎 | 美女扒开尿口给男人桶动态图 | 久久全国免费久久青青小草 | 久久精品女人天堂 | 二区三区视频 | 日本最好的免费影院 | 正在播放91 | 国产精品免费拍拍1000部 | 国产在线观看色 | 宅男69免费永久网站 | 亚洲午夜网未来影院 | 色男人综合 | 免费看黄在线 | 伊人成人在线 | a级黑粗大硬长爽猛视频毛片 | 午夜久 | 国产午夜视频在线观看网站 | 精品四虎免费观看国产高清 | 欧美日本色 | 天天插天天射天天干 | 亚洲 欧美 精品 | 午夜久久福利 | 男人天堂网在线视频 | 天天躁狠狠躁夜夜躁 | 国产精品久久久久网站 | 免费看的黄网站 | 国产你懂的在线 | 国产黄色在线 | 成年色黄大色黄大片 视频 成年视频xxxxx免费播放软件 | 清纯唯美亚洲综合一区 | 91成人免费视频 | 午夜免费福利影院 | 国产午夜精品视频 | 美国一区二区三区 | 一区二区三区影视 | 韩国理伦片在线观看2828 | va在线| 在线观看不卡一区 | 你懂得视频在线 |