在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA TensorRT助力模型性能提升

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2021-10-09 14:57 ? 次閱讀

夸克瀏覽器是阿里旗下的一個(gè)搭載極速AI引擎的高速智能瀏覽器。夸客以極速智能搜索為定位,致力于為用戶提供交互更智能高效、內(nèi)容更專業(yè)權(quán)威的新一代搜索引擎,同時(shí)也在產(chǎn)品極致體驗(yàn)上不斷實(shí)現(xiàn)突破。

夸克目前不僅提供極致的搜索體驗(yàn),也在探索以深度學(xué)習(xí)為基礎(chǔ)的AI工具,通過(guò)高效的算法效果和全流程的性能優(yōu)化,提供更好的用戶體驗(yàn)。深度學(xué)習(xí)模型在實(shí)際應(yīng)用的過(guò)程中,效果遠(yuǎn)好于傳統(tǒng)模型,但由于算法復(fù)雜度過(guò)高,預(yù)測(cè)性能成為制約模型最終能否上線的核心問(wèn)題。NVIDIA TensorRT通過(guò)計(jì)算圖的優(yōu)化、高效Kernel的實(shí)現(xiàn)及更高效硬件的利用加速模型預(yù)測(cè)耗時(shí),使預(yù)測(cè)速度提升了1~3倍。

智能相機(jī)功能對(duì)ORC實(shí)時(shí)性提出新要求

夸克瀏覽器為用戶提供智能相機(jī)功能,打開(kāi)夸克APP后,通過(guò)相機(jī)入口(如下左圖紅框所示)進(jìn)入智能相機(jī)功能,可以看到智能相機(jī)提供的具體功能(如下右圖所示),包括萬(wàn)能掃描、學(xué)習(xí)輔導(dǎo)、萬(wàn)物識(shí)別等功能,這些功能對(duì)實(shí)時(shí)性要求極高,不少功能的底層核心技術(shù)依賴OCR。作為核心一環(huán),OCR需要承接巨大流量,其效果及性能影響整個(gè)上層業(yè)務(wù)的用戶體驗(yàn)。

OCR全流程包含檢測(cè)、識(shí)別等多個(gè)模型以及復(fù)雜的前后處理,整體耗時(shí)10s級(jí)別,耗時(shí)過(guò)長(zhǎng)嚴(yán)重影響用戶體驗(yàn),無(wú)法達(dá)到上線要求。主要影響性能的因素有以下三點(diǎn):?jiǎn)蝹€(gè)模型占用顯存過(guò)大導(dǎo)致全流程無(wú)法部署在同一個(gè)GPU上,需要在多個(gè)GPU上進(jìn)行數(shù)據(jù)傳輸,多GPU部署導(dǎo)致GPU利用率不高;模型本身性能慢,涉及復(fù)雜的檢測(cè)和識(shí)別模型;全流程中模型前后處理復(fù)雜。

NVIDIA TensorRT助力模型性能提升

對(duì)比目前性能優(yōu)化方案,夸克選擇了采用NVIDIA TensorRT作為模型優(yōu)化的底層框架對(duì)模型進(jìn)行優(yōu)化。TensorRT提供完整端到端模型性能優(yōu)化工具,支持TF和ONNX等相關(guān)框架模型,使用后對(duì)模型性能帶來(lái)巨大提升。

1、TensorRT對(duì)模型結(jié)構(gòu)進(jìn)行優(yōu)化,使用高效Kernel實(shí)現(xiàn),并且支持FP16和INT8量化。部分模型通過(guò)使用TensorRT,模型性能達(dá)到2-3倍的提升,并且顯存降到原來(lái)的30%~50%。

2、有模型在使用FP16精度后,模型效果下降,夸克團(tuán)隊(duì)在NVIDIA工作人員的指導(dǎo)下,通過(guò)對(duì)模型設(shè)置混合精度,模型的性能較FP16略微下降,但整體效果能夠達(dá)到要求。

3、對(duì)于部分轉(zhuǎn)TensorRT失敗的模型,對(duì)模型進(jìn)行分析,單獨(dú)抽取模型耗時(shí)的部分進(jìn)行模型優(yōu)化。

4、在使用TensorRT的過(guò)程中,通過(guò)Nsight Systems發(fā)現(xiàn)TensorRT OP在某些場(chǎng)景性能表現(xiàn)不盡人意,在NVIDIA工作人員指導(dǎo)下,通過(guò)調(diào)整OP的使用方式解決該問(wèn)題。

TensorRT助力OCR全流程性能優(yōu)化

通過(guò)使用NVIDIA TensorRT,夸克瀏覽器極大地提升了模型性能和降低模型本身顯存占用,提高了GPU的使用率。在對(duì)整體流程和模型進(jìn)行優(yōu)化后,全部模型能夠部署在單個(gè)GPU上,并且整體耗時(shí)在400ms內(nèi)。

夸克技術(shù)人員表示:TensorRT文檔齊全,功能使用方便,用戶能夠以低門(mén)檻使用其帶來(lái)的優(yōu)化,無(wú)需手動(dòng)編寫(xiě)復(fù)雜模型轉(zhuǎn)換工具,大大地減少了用戶投入成本。對(duì)比其他模型優(yōu)化框架,TensorRT具有更好的通用性、易用性和性能。

通過(guò)這次對(duì)OCR全流程的性能優(yōu)化,夸克瀏覽器也積累了一套適合內(nèi)部使用的模型性能優(yōu)化方案,在遇到其他模型性能問(wèn)題時(shí)也有的放矢。目前夸克已經(jīng)把TensorRT相關(guān)優(yōu)化工具集成到其瀏覽器的內(nèi)部平臺(tái)上,同時(shí)應(yīng)用到其他業(yè)務(wù)的模型中,并取得良好的效果。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5274

    瀏覽量

    105977
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    34623

    瀏覽量

    276459
  • 瀏覽器
    +關(guān)注

    關(guān)注

    1

    文章

    1040

    瀏覽量

    36163

原文標(biāo)題:NVIDIA TensorRT 加速夸克瀏覽器AI應(yīng)用,對(duì)模型性能提升起到關(guān)鍵作用

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類別的 TTS 模型NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張
    的頭像 發(fā)表于 06-12 15:37 ?427次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS應(yīng)用的最佳實(shí)踐

    NVIDIA 推出開(kāi)放推理 AI 模型系列,助力開(kāi)發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺(tái)

    月 18 日 —— ?NVIDIA 今日發(fā)布具有推理功能的開(kāi)源 Llama Nemotron 模型系列,旨在為開(kāi)發(fā)者和企業(yè)提供業(yè)務(wù)就緒型基礎(chǔ),助力構(gòu)建能夠獨(dú)立工作或以團(tuán)隊(duì)形式完成復(fù)雜任務(wù)的高級(jí) AI 智能體。
    發(fā)表于 03-19 09:31 ?213次閱讀
    <b class='flag-5'>NVIDIA</b> 推出開(kāi)放推理 AI <b class='flag-5'>模型</b>系列,<b class='flag-5'>助力</b>開(kāi)發(fā)者和企業(yè)構(gòu)建代理式 AI 平臺(tái)

    NVIDIA技術(shù)助力Pantheon Lab數(shù)字人實(shí)時(shí)交互解決方案

    本案例中,Pantheon Lab(萬(wàn)想科技)專注于數(shù)字人技術(shù)解決方案,通過(guò) NVIDIA 技術(shù)實(shí)現(xiàn)數(shù)字人實(shí)時(shí)對(duì)話與客戶互動(dòng)交流。借助 NVIDIA GPU、NVIDIA TensorRT
    的頭像 發(fā)表于 01-14 11:19 ?601次閱讀

    NVIDIA推出開(kāi)放式Llama Nemotron系列模型

    作為 NVIDIA NIM 微服務(wù),開(kāi)放式 Llama Nemotron 大語(yǔ)言模型和 Cosmos Nemotron 視覺(jué)語(yǔ)言模型可在任何加速系統(tǒng)上為 AI 智能體提供強(qiáng)效助力
    的頭像 發(fā)表于 01-09 11:11 ?678次閱讀

    NVIDIA推出面向RTX AI PC的AI基礎(chǔ)模型

    NVIDIA 今日發(fā)布能在 NVIDIA RTX AI PC 本地運(yùn)行的基礎(chǔ)模型,為數(shù)字人、內(nèi)容創(chuàng)作、生產(chǎn)力和開(kāi)發(fā)提供強(qiáng)大助力
    的頭像 發(fā)表于 01-08 11:01 ?501次閱讀

    NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

    Recurrent Drafting (簡(jiǎn)稱 ReDrafter) 是蘋(píng)果公司為大語(yǔ)言模型 (LLM) 推理開(kāi)發(fā)并開(kāi)源的一種新型推測(cè)解碼技術(shù),該技術(shù)現(xiàn)在可與 NVIDIA TensorRT-LLM 一起使用。
    的頭像 發(fā)表于 12-25 17:31 ?665次閱讀
    在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中啟用ReDrafter的一些變化

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一個(gè)專為優(yōu)化大語(yǔ)言模型 (LLM) 推理而設(shè)計(jì)的庫(kù)。它提供了多種先進(jìn)的優(yōu)化技術(shù),包括自定義 Attention Kernel、Inflight
    的頭像 發(fā)表于 12-17 17:47 ?768次閱讀

    NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開(kāi)發(fā)布

    感謝眾多用戶及合作伙伴一直以來(lái)對(duì)NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現(xiàn)已在 GitHub 上公開(kāi)發(fā)布!
    的頭像 發(fā)表于 11-28 10:43 ?661次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap現(xiàn)已在GitHub上公開(kāi)發(fā)布

    使用NVIDIA TensorRT提升Llama 3.2性能

    Llama 3.2 模型集擴(kuò)展了 Meta Llama 開(kāi)源模型集的模型陣容,包含視覺(jué)語(yǔ)言模型(VLM)、小語(yǔ)言模型(SLM)和支持視覺(jué)的更
    的頭像 發(fā)表于 11-20 09:59 ?725次閱讀

    TensorRT-LLM低精度推理優(yōu)化

    本文將分享 TensorRT-LLM 中低精度量化內(nèi)容,并從精度和速度角度對(duì)比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA TensorRT
    的頭像 發(fā)表于 11-19 14:29 ?1161次閱讀
    <b class='flag-5'>TensorRT</b>-LLM低精度推理優(yōu)化

    NVIDIA NIM助力企業(yè)高效部署生成式AI模型

    Canonical、Nutanix 和 Red Hat 等廠商的開(kāi)源 Kubernetes 平臺(tái)集成了 NVIDIA NIM,將允許用戶通過(guò) API 調(diào)用來(lái)大規(guī)模地部署大語(yǔ)言模型
    的頭像 發(fā)表于 10-10 09:49 ?704次閱讀

    NVIDIA CorrDiff生成式AI模型能夠精準(zhǔn)預(yù)測(cè)臺(tái)風(fēng)

    NVIDIA GPU 上運(yùn)行的一個(gè)擴(kuò)散模型向天氣預(yù)報(bào)工作者展示了加速計(jì)算如何實(shí)現(xiàn)新的用途并提升能效。
    的頭像 發(fā)表于 09-13 17:13 ?1207次閱讀

    NVIDIA助力提供多樣、靈活的模型選擇

    在本案例中,Dify 以模型中立以及開(kāi)源生態(tài)的優(yōu)勢(shì),為廣大 AI 創(chuàng)新者提供豐富的模型選擇。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton 推理服務(wù)器產(chǎn)品,為
    的頭像 發(fā)表于 09-09 09:19 ?890次閱讀

    NVIDIA Nemotron-4 340B模型幫助開(kāi)發(fā)者生成合成訓(xùn)練數(shù)據(jù)

    Nemotron-4 340B 是針對(duì) NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優(yōu)化的模型系列,該系列包含最先進(jìn)的指導(dǎo)和獎(jiǎng)勵(lì)
    的頭像 發(fā)表于 09-06 14:59 ?681次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron-4 340B<b class='flag-5'>模型</b>幫助開(kāi)發(fā)者生成合成訓(xùn)練數(shù)據(jù)

    魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區(qū)是中國(guó)最具影響力的模型開(kāi)源社區(qū),致力給開(kāi)發(fā)者提供模型即服務(wù)的體驗(yàn)。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語(yǔ)言模型
    的頭像 發(fā)表于 08-23 15:48 ?1051次閱讀
    主站蜘蛛池模板: 99热热热 | 欧美一区二区三区激情啪啪 | 国产成人av在线 | xxxx性欧美极品另类 | 激情玖玖 | 天天干天天色综合网 | 电影天堂在线观看三级 | www.九色.com | 伊人网址| 欧美亚洲h在线一区二区 | www五月| 色www免费视频 | 国产网红主播精品福利大秀专区 | 欧美a∨| 极品国产一区二区三区 | 国产色秀视频在线观看 | 欧美午夜性 | 国产伦理一区二区三区 | 国产高清视频在线免费观看 | 欧美三级一级片 | 午夜久久久精品 | 成 人 在 线 免费 8888 www | 久久婷婷影院 | 久久草精品 | 国产亚洲片 | 日本一卡精品视频免费 | 国产三级精品最新在线 | 综合天堂| 国产精品网址你懂的 | 看黄a大片 免费 | 色婷婷色综合激情国产日韩 | 高清人人天天夜夜曰狠狠狠狠 | 老色网站 | 天天做天天爱天天爽综合网 | 深夜网站免费 | 天天狠狠干 | 夜夜操夜夜骑 | 亚洲 欧美 自拍 卡通 综合 | 天堂资源在线中文 | 两性色午夜视频免费播放 | 久久国产高清字幕中文 |