在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

算法優化福音:算子自動優化工具AutoKernel正式開源啦

電子設計 ? 來源:電子設計 ? 作者:電子設計 ? 2020-12-08 22:28 ? 次閱讀
文章轉載于: Tengine開發者社區
作者:小O妹

算子自動優化的發展趨勢
隨著AI技術的快速發展,深度學習在各個領域得到了廣泛應用。深度學習模型能否成功在終端落地應用,滿足產品需求,一個關鍵的指標就是神經網絡模型的推理性能。于是,一大波算法工程師為了算法的部署轉崗算子優化工程師。然而,優化代碼并不是一件簡單的事,它要求工程師既要精通計算機體系架構,又要熟悉算法的計算流程,于是,稍微有經驗的深度學習推理優化工程師都成了各家公司爭搶的“香餑餑”。人才少,需求多,算子優化自動化是未來的大趨勢。
AutoKernel是什么?

最近,一個致力于降低優化門檻,提升優化開發效率的算子自動優化工具AutoKernel開源了。

AutoKernel是一個高性能算子自動優化工具,可以自動優化調度策略、生成底層優化代碼,大幅減少各硬件芯片算子開發成本,提升算子優化效率,讓工程師更快實現深度學習算法在各硬件芯片上的高性能部署。
AutoKernel的定位
為了方便大家進一步理解AutoKernel,我們需要先了解一下深度學習推理計算平臺的層級。

深度學習的推理計算平臺可以分為以下幾個層級:
1、最上層對接各個深度學習訓練框架訓練出來的算法模型(Tensorflow, Caffe, Pytorch, Mxnet等);
2、 Hign-level IR是計算圖(Computation Graph)層級。神經網絡可以理解為計算圖(graph),一個計算圖由多個算子(opterator)節點組成,這些節點可以是卷積算子(Convolution), 池化算子(Pooling), 全連接算子(Fc)等。這個層級可以進行一些圖層級的優化,算子融合,子圖切分的操作等;
3、接下來就是算子(Operator/Kernel)層級。這個層級需要支持每個硬件后端的每個算子實現。目前的高性能算子計算庫主要是由資深HPC工程師(高性能計算優化工程師)進行手工開發。AutoKernel就是算子層級的一個自動優化工具,自動生成適應不同后端的算子優化代碼;
4、最后是各硬件后端:GPU, ARM CPU, X86 CPU, NPU等。
AutoKernel目前屬于算子層級的自動優化工具。
AutoKernel如何實現部署優化?
部署優化之前,我們先了解一下AutoKernel的三大特性:
·低門檻: 無需底層優化匯編的知識門檻
·簡單易用: 提供docker環境,無需安裝環境,plugin一鍵集成到推理框架
·高效率: 無需手寫優化匯編,一鍵生成優化代碼,一鍵部署
作為算子層級的一個自動優化工具,AutoKernel支持將自動優化的算子代碼集成進部署推理框架,主要流程分為兩步:
1. 生成:編寫算法描述和調度策略,生成相應后端的優化算子代碼;
2. 部署:將生成的優化算子代碼通過插件plugin的形式集成進推理框架Tengine。

AutoKernel的算子生成模塊(Op Generator)使用了業界廣泛使用的自動代碼生成項目Halide。Halide是一個DSL(domain specific language) 編程語言,它將算法和硬件后端分離。本模塊輸入Halide語言的算法描述和優化調度策略,指定硬件后端,就可以自動生成優化代碼。為了減少開發者配置環境的遇到問題,AutoKernel提供了docker鏡像,docker里面已經安裝好Halide, 并且配置好Halide的Python的API,方便開發者使用。
AutoKernel的部署模塊Autokernel Plugin是一個相對獨立的插件,只依賴于Tengine的算子頭文件,不依賴于Tengine庫。它實現了將AutoKernel Generator生成優化的算子代碼,以Plugin的形式集成進Tengine推理框架中,實現自動優化算子的一鍵部署。整個過程不需要重新編譯Tengine庫,只需要獨立編譯Plugin的動態庫,在運行時加載Autokernel Plugin的庫,就能調用自動生成的算子實現。下面的圖展示了使用AutoKernel前后的變化,只需要在運行時添加一行代碼,加載autokernel plugin的動態庫:

AutoKernel還有一個模塊叫AutoSearch,該模塊通過強化學習/機器學習/遺傳算法搜索出相應后端的最優算子的調度策略參數。該模塊目前仍在開發中。
AutoKernel使用教程
下圖是展示了在Intel(R) Core(TM) i9-9900K CPU @ 3.60GHz的電腦上的優化效果,無需手工擼代碼,無需編寫繁雜冗長的底層匯編代碼,只需十幾行簡潔的調度代碼, 就能性能優化200+倍~

推薦閱讀

更多Tengine相關內容請關注Tengine-邊緣AI推理框架專欄。

審核編輯:符乾江
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1804

    文章

    48599

    瀏覽量

    245918
  • AIoT
    +關注

    關注

    8

    文章

    1476

    瀏覽量

    31951
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    VirtualLab:光柵的優化與分析

    光柵是光學工程師使用的最基本的工具。為了設計和分析這類組件,快速物理光學建模和設計軟件VirtualLab Fusion為用戶提供了許多有用的工具。其中包括參數優化,以輕松優化系統,以
    發表于 05-23 08:49

    OptiSystem應用:增益平坦濾波器優化

    擇過濾器組件,可視化工具選項卡應選擇雙端口分析器。 設置優化 優化參數設置 優化元件選擇增益平坦濾波器 可視化工具選項卡應選擇雙端口
    發表于 04-10 08:49

    英諾達推出RTL功耗優化工具

    英諾達(成都)電子科技有限公司隆重推出芯片設計早期RTL級功耗優化工具—EnFortius RTL Power Explorer(ERPE),該工具可以高效、全面地在RTL設計階段進行功耗優化機會
    的頭像 發表于 03-20 17:06 ?430次閱讀

    VirtualLab Fusion應用:非近軸衍射分束器的設計與優化

    難度。VirtualLab Fusion為光學工程師提供了幾個工具來幫助他們完成這項任務。 為了說明一般工作流程,我們展示了兩個案例:在第一個案例中,我們采用迭代傅里葉變換算法(IFTA)和基于薄元近似(TEA
    發表于 03-10 08:56

    構建開源OpenVINO?工具套件后,模型優化器位于何處呢?

    構建開源OpenVINO?工具套件后,模型優化器位于何處?
    發表于 03-06 08:18

    VirtualLab Fusion應用:參數優化文檔介紹

    摘要 VirtualLab Fusion的參數優化文檔使用戶能夠為其光學裝置應用非線性優化算法。該文檔指導您完成優化配置并最終輸出結果。這個用例解釋了參數
    發表于 02-28 08:44

    FRED應用:LED發光顏色優化

    emitting sources ),波長的光譜范圍從廠商數據表中利用數字化工具獲取數據。 此例子的布局包含3個任意的平面光源照射到一個接受屏。分析面附加于1)屏幕,計算色坐標值。2)光源,計算LED總功率
    發表于 01-17 09:39

    華大九天推出PowerMOS版圖自動化工具

    (Andes-Power Generator)和基于仿真加數學算法的版圖優化工具(Andes-Power EM/RDSon Iteration-Correction)。 Andes-Power工具通過采用先進的智能
    的頭像 發表于 12-30 11:07 ?804次閱讀

    AFE7070在VHF頻段優化工

    電子發燒友網站提供《AFE7070在VHF頻段優化工作.pdf》資料免費下載
    發表于 09-26 10:39 ?0次下載
    AFE7070在VHF頻段<b class='flag-5'>優化工</b>作

    基于 DSP5509 進行數字圖像處理中 Sobel 算子邊緣檢測的硬件連接電路圖

    優化。例如,可以調整存儲模塊的訪問速度、優化 Sobel 算子的計算算法、提高顯示模塊的刷新率等,以提高系統的性能和穩定性。 總之,基于 DSP5509 的數字圖像處理中 Sobel
    發表于 09-25 15:25

    優化 FPGA HLS 設計

    優化 FPGA HLS 設計 用工具用 C 生成 RTL 的代碼基本不可讀。以下是如何在不更改任何 RTL 的情況下提高設計性能。 介紹 高級設計能夠以簡潔的方式捕獲設計,從而
    發表于 08-16 19:56

    傾斜光柵的魯棒性優化

    直接納入優化過程,例如參數變化分析儀。該工具結合了同一系統的多次迭代,在優化過程中實現了評價函數的表示和自動計算,如平均效率。在這個用例中,我們通過稍微改變填充因子來
    發表于 08-12 18:38

    神經網絡優化算法有哪些

    神經網絡優化算法是深度學習領域中的核心技術之一,旨在通過調整網絡中的參數(如權重和偏差)來最小化損失函數,從而提高模型的性能和效率。本文將詳細探討神經網絡優化算法的基本原理、主要方法、
    的頭像 發表于 07-03 16:01 ?1060次閱讀

    寶塔面板Docker一鍵安裝:部署GPTAcademic,開發私有GPT學術優化工具

    人工智能的浪潮中,GPT模型因其強大的自然語言處理能力備受矚目。然而,為了更好地應用于學術領域,許多人希望能部署自己私有的GPT學術優化工具。本文將詳細介紹如何通過寶塔面板和Docker一鍵安裝
    的頭像 發表于 07-02 11:58 ?3478次閱讀
    寶塔面板Docker一鍵安裝:部署GPTAcademic,開發私有GPT學術<b class='flag-5'>優化工具</b>

    OpenHarmony之開機優化

    一丶環境信息 源碼版本:OpenHarmony-4.1-Release 板子型號:dayu200(RK3568) 二丶Bootchart工具 在開機優化時,我們需要借助Bootchart工具,當前
    發表于 07-01 16:39
    主站蜘蛛池模板: 免费黄色大片网站 | 欧美性黑人极品hd网站 | 黄色大片日本 | 四虎东方va私人影库在线观看 | 爱搞逼综合 | 超黄视频网站 | 黄视频网站免费看 | 午夜精品国产 | 欧美在线视频7777kkkk | 国产成人精品三级在线 | 天堂成人在线观看 | 牛仔裤美女国产精品毛片 | 国产秦先生大战白丝97在线 | 国模大尺度在线 | 在线观看视频网站 | 天天天天添天天拍天天谢 | 酒色成人网 | 亚洲a成人| 久久瑟 | 嫩草影院国产 | 天堂在线看 | 717影院理论午夜伦八戒 | 亚洲一卡二卡在线 | 久久国产精品亚洲综合 | 人人爱人人艹 | 日日爽夜夜 | 超级碰碰青草久热国产 | 天天舔天天干天天操 | 日韩三级中文字幕 | 亚洲日本视频 | 精品国产第一页 | 激情综合网激情 | 欧美专区一区二区三区 | 2017天天干夜夜操 | 六月丁香激情 | aaaa级日本片免费视频 | 国产精品国产三级在线高清观看 | 天天干夜夜想 | 在线观看视频你懂的 | 亚洲精品久久片久久 | www.激情五月.com |