在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于M55H的定制化backbone模型AxeraSpine

愛芯元智AXERA ? 來源:愛芯元智AXERA ? 2023-10-10 16:09 ? 次閱讀

背景

Backbone模型是各種視覺任務訓練的基石,視覺任務模型的性能和模型的速度都受backbone模型的影響,良好的backbone模型可以有效提高視覺任務模型的性能和精度。因此設計優良的backbone模型對視覺任務模型的表現至關重要。目前存在低延遲且高性能的開源模型已經有很多,但這些模型的設計往往只考慮到了理論計算量,并沒有和實際的硬件條件相結合,因此這些模型部署到實際的硬件上,并不能發揮最大的速度潛能。針對這個挑戰,為了發揮backbone模型的最大潛力,我們在M55H平臺上,基于MobileNetV2模型定制了適用于M55H平臺的backbone模型AXSpine系列,相比于原始MobileNetV2模型,AXSpine-Middle在精度提升的同時,速度提升了50%,硬件的MAC利用率大幅提高,在多個具體任務上達到80%以上。另外還有多組通過裁剪或者擴充的AXSpine系列模型提供,以供不同延遲和精度要求的視覺任務進行選擇。

性能指標

以下展示AXSpine-Middle模型和MobileNetV2模型在愛芯元智M55H平臺上不同分辨率的性能對比,數據集采用ImageNet數據集,精度均在224x224分辨率條件下進行測試,更多AXSpine模型指標在文章末尾表格中:

模型名稱 Input shape acc1(224 x 224 標準輸入條件下) M55H 幀率(@vnpu111)
MobileNetV2 1x3x576x320 71.88 124 fps
MobileNetV2 1x3x288x160 71.88 373.7 fps
AXSpine-Middle 1x3x576x320 72.87 186 fps
AXSpine-Middle 1x3x1280x720 72.87 36.5 fps
AXSpine-Middle 1x3x1920x1080 72.87 19.4 fps

相關模型介紹

3.1 MobileNetV2

MobileNetV2是google提出的用于移動端的backbone模型,具有精度高、計算量小的特點,在移動端設備上推理效果顯著。MobileNetV2模型的基本組成塊為倒置殘差卷積,由兩組1x1的卷積和一組3x3的depthwise卷積構成。1x1卷積主要作用為對depthwise卷積做升/降維,3x3的depthwise卷積則在升維的空間上進行卷積運算,這種架構可以在保證表達能力的同時有效地增強計算效率。隨后,這種倒置殘差卷積結構進行若干次的堆疊,構造成為MobileNetV2模型。

3.2 地平線相關模型

地平線公司也在自身平臺上專門對backbone模型進行了優化,并推出了VarGENet和MixVarGENet等系列模型,其基本塊如下圖所示:

8ea7a980-6743-11ee-939d-92fbcf53809c.png

8ebce9da-6743-11ee-939d-92fbcf53809c.jpg

8ea7a980-6743-11ee-939d-92fbcf53809c.png

3.3 特斯拉相關模型

特斯拉相關模型為RegNet,RegNet為何凱明的相關工作,旨在用超參數搜索的方式,指導模型設計的相關工作,在低運算量的條件下,取得了相對優良的精度,由于沒有用到depthwise卷積,在GPU模型上表現良好,被特斯拉硬件采用。其基本結構與resnet等同,如下所示:

8ed53e2c-6743-11ee-939d-92fbcf53809c.jpg

模型優化

相對于MobileNetV2官方實現,AXSpine模型做了以下改動:

●將MobileNetV2的所有的depthwise卷積修改為小channel size的group卷積;

●將模型第二層的倒置殘差卷積替換為一個簡單的3x3 conv層;

●對不滿足硬件通道對齊的層進行硬件通道對齊;

● 減小部分層的expand_ratio提高運算速度;

● 將原有的5層stage結構,仿照convnext修改為4層stage結構3393,速度提升,精度降低。

改動詳細說明

5.1 depthwise卷積修改為group卷積

由于邊緣側芯片的depthwise卷積的支持往往比較低效,這導致使用depthwise卷積的MobileNetV2無法發揮理論計算效率,在這里將depthwise卷積修改為group卷積,增強模型的表達能力,由于芯片組卷積,在特定channel的情況最為高效,因此將所有的depthwise卷積修改為特定channel數的group卷積。

8edf7298-6743-11ee-939d-92fbcf53809c.png8ea7a980-6743-11ee-939d-92fbcf53809c.png

5.2 替換第二層倒置殘差卷積

MobileNetV2的第一層為一個3x3的普通卷積,第二層為一個expand_ratio = 1 的倒置殘差卷積,在原有的MobileNetV2設計中,使用倒置殘差卷積的目的是為了減少計算量,然而當修改為group卷積后,運算量反倒大幅增加,因此將第二層的倒置殘差卷積的兩個堆疊的卷積層,修改為單個普通的3x3卷積。

8ef5d358-6743-11ee-939d-92fbcf53809c.jpg

8ea7a980-6743-11ee-939d-92fbcf53809c.png

5.3 對不滿通道對齊的卷積進行對齊

硬件單元在計算的過程中,需要進行數據對齊,如果不滿足數據對齊條件,就會降低運算效率,M55H硬件也是一樣。因此,為了充分利用硬件的計算能力,需要對不滿足channel對齊的層進行對齊操作,MobileNetV2模型中,部分層不滿足硬件對齊條件,這里需要對不滿足硬件對齊的層進行向上補齊操作,不影響性能,表達能力有所提升。

5.4 減小expand_ratio

由于原有的depthwise卷積被替換成了group卷積,模型的表達能力大幅增強,而我們修改MobileNetV2模型的最終目的是為了在保證精度的情況下,提升速度,因此在此處對expand_ratio進行消減,將expand_ratio從6修改為4,第二層的expand_ratio由4再消減為2,理論上模型的計算量減少約30%,這種expand_同時也考慮到了M55H的調度特性,在實際的調度過程中,由于各層特征圖的大小得到了均衡,整體調度效率也得到了提升。

8f092c6e-6743-11ee-939d-92fbcf53809c.jpg

8ea7a980-6743-11ee-939d-92fbcf53809c.png

5.5 修改模型stage排布

借鑒convnext文章中的的思路,模型應當包含有4個stage,每個stage的比例大概為13:1較優,基于此判斷,對MobileNetV2模型的stage進行重新劃分,將原有的stage排布按照39:3進行排列,相比于直接削減channel數提升速度的方式,修改stage對模型精度的損傷較小,修改見下圖所示:

8f1adf4a-6743-11ee-939d-92fbcf53809c.jpg

總結

經過對MobilenetV2模型的適應性改動,愛芯元智發布了基于M55H芯片平臺的定制化模型AXSpine,相比于原版MobilenetV2模型,AXSpine-Middle模型具有更高的精度和達到50%提升的速度。得益于愛芯元智M55H平臺軟硬件聯合設計優化,經過改良后的AXSpine模型相較業界友商在單位算力情況下,展現出了強大的性能和延遲表現。此外除了AXSpine-Middle模型以外,還有若干組模型上架,以滿足不同的延遲和精度需求,總結表格如下,以下模型目前已應用于多組視覺任務中,歡迎使用:

模型名稱 Input shape acc1(224 x 224 標準輸入條件下) M55H 幀率(@vnpu111)
MobileNetV2 1x3x576x320 71.88 124 fps
AXSpine-Small 1x3x576x320 71.59 227 fps
AXSpine-Middle 1x3x576x320 72.87 186 fps
AXSpine-Big 1x3x576x320 75.31 131 fps






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • GPU芯片
    +關注

    關注

    1

    文章

    305

    瀏覽量

    6132

原文標題:愛芯分享 | 基于M55H的定制化backbone模型AxeraSpine

文章出處:【微信號:愛芯元智AXERA,微信公眾號:愛芯元智AXERA】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    集成Docker,解鎖 HMI/網關的定制應用

    工業自動領域對定制HMI/網關的需求日益增長,而傳統設備因功能固化難以滿足快速迭代需求。宏集HMI&網關通過集成Docker技術,賦予設備超強的靈活性和擴展性,滿足企業的個性需求
    的頭像 發表于 05-22 11:06 ?92次閱讀
    集成Docker,解鎖 HMI/網關的<b class='flag-5'>定制</b><b class='flag-5'>化</b>應用

    愛芯元智榮獲2025年度影響力汽車芯片大獎

    近日,中國汽車芯片產業創新戰略聯盟與中國電子報聯合主辦的汽車芯片生態大會及頒獎儀式在上海國際車展舉行,愛芯元智已規模量產的車規級芯片M55H斬獲“2025中國汽車芯片產業創新成果——年度影響力汽車芯片”大獎,M55H
    的頭像 發表于 04-30 10:31 ?339次閱讀

    特朗普要叫停英偉達對華特供版 英偉達H20出口限制 或損失55億美元

    是“中國特供版”人工智能芯片;是英偉達公司為符合美國出口規定專門為中國市場開發的定制芯片,H20芯片在訓練AI模型方面不如英偉達其他芯片速度快;相比H100在性能上有了很大的閹割。但是
    的頭像 發表于 04-16 16:59 ?1101次閱讀

    H110M-K點位圖

    H110M-K點位圖
    發表于 04-14 14:51 ?8次下載

    基于RK芯片的主板定制:挑戰、機遇與發展趨勢

    隨著嵌入式系統和物聯網技術的蓬勃發展,市場對于具備特定功能和性能的定制主板需求日益增長。瑞芯微(Rockchip,簡稱RK)憑借其高性能、低功耗的芯片產品,在平板電腦、電視盒子、人工智能等領域占據
    的頭像 發表于 03-27 14:50 ?439次閱讀
    基于RK芯片的主板<b class='flag-5'>定制</b><b class='flag-5'>化</b>:挑戰、機遇與發展趨勢

    RAKsmart美國裸機云服務器DeepSeek的高級定制部署方案

    在RAKsmart美國裸機云服務器上進行DeepSeek的高級定制部署,需結合高性能硬件與靈活的軟件配置,以實現模型優化、多任務并行及安全性提升。以下是針對企業級需求的詳細方案,主機推薦小編為您整理發布RAKsmart美國裸機
    的頭像 發表于 03-13 11:55 ?380次閱讀

    HFSS 自動建模工具

    因工作需求,自己寫的HFSS參數自動建模工具,目前只實現了常用的四種模型,可定制,如需可聯系 qq:1300038043 附件下載鏈接:https://pan.baidu.com
    發表于 02-27 17:44

    AI基礎模型提升癌癥診斷精確度,實現個性治療方案定制

    每位患者特有的醫療數據為其量身定制治療方案。 該研究的資深學者、放射腫瘤學副教授李瑞江表示:“多模態基礎模型是醫學 AI 研究的一個新領域。最近已經出現了一些醫學領域的視覺語言基礎模型,尤其是病理學領域,但當前研究使用的仍是現有
    的頭像 發表于 02-11 09:22 ?871次閱讀
    AI基礎<b class='flag-5'>模型</b>提升癌癥診斷精確度,實現個性<b class='flag-5'>化</b>治療方案<b class='flag-5'>定制</b>

    新唐科技基于NuMaker-M55M1平臺的人臉識別系統

    人臉識別技術已成為現代科技的重要基石,廣泛應用于安全監控、門禁系統以及用戶身份認證等領域。新唐科技基于 NuMaker-M55M1 平臺的人臉識別系統,結合多種核心技術組件,包括圖像處理技術
    的頭像 發表于 01-20 10:31 ?607次閱讀

    安裝定制防震基座時需要哪些工具和設備

    安裝定制防震基座所需的工具和設備
    的頭像 發表于 12-30 15:28 ?522次閱讀
    安裝<b class='flag-5'>定制</b><b class='flag-5'>化</b>防震基座時需要哪些工具和設備

    可靈AI全球首發視頻模型定制功能,助力AI視頻創作

    屬于自己的專屬人臉模型。在模型定制完成后,用戶可以基于該模型生成包含同一人物鏡頭的多個視頻內容,從而滿足用戶對于個性視頻創作的多樣
    的頭像 發表于 11-26 14:02 ?1163次閱讀

    TPS7H5001-SP最壞情況分析模型

    電子發燒友網站提供《TPS7H5001-SP最壞情況分析模型.pdf》資料免費下載
    發表于 11-14 14:52 ?0次下載
    TPS7<b class='flag-5'>H</b>5001-SP最壞情況分析<b class='flag-5'>模型</b>

    浪潮信息發布KOS AI定制版,大幅提升大模型訓練效率

    浪潮信息近期推出了“元腦服務器操作系統KOS AI定制版”,為人工智能領域帶來了革命性的變化。這款定制版操作系統通過簡單的兩步操作,即可實現大模型訓練環境的快速部署。
    的頭像 發表于 10-30 17:23 ?880次閱讀

    M12航插連接器與線束定制,為您的自動設備提供專業互連支持

    隨著自動技術的不斷進步,設備的連接性能對于提高工作效率和可靠性至關重要。面對每個自動項目的獨特需求,電子谷作為專業的連接器與線束制造商,特別推出M12航插連接器和線束的定制服務,為
    的頭像 發表于 10-10 08:06 ?932次閱讀
    <b class='flag-5'>M</b>12航插連接器與線束<b class='flag-5'>定制</b>,為您的自動<b class='flag-5'>化</b>設備提供專業互連支持

    基于MATLAB 的質量守恒空模型(JFO 模型

    可有大佬會基于MATLAB 的質量守恒空模型(JFO 模型
    發表于 07-05 23:32
    主站蜘蛛池模板: h视频在线免费观看 | 在线视频影院 | 亚洲免费一区二区 | 男人的天堂久久精品激情 | 国产精品网站在线进入 | 日韩一级在线 | 午夜免费影院 | 激情五月激情综合网 | 1024手机在线看 | 亚洲国产欧美精品一区二区三区 | 亚洲在成人网在线看 | 国产小视频免费观看 | 四虎地址8848最新章节 | 国产精品美女一区二区三区 | 免费看黄在线观看 | 国产男人女人做性全过程视频 | 天天舔天天操 | 操操干干| 国产黄色高清视频 | a级精品九九九大片免费看 a级毛毛片看久久 | 天天综合天天做天天综合 | 国内一国产农村妇女一级毛片 | 成人免费淫片95视频观看网站 | 欧美一级做一a做片性视频 欧美一级做一级做片性十三 | av2021天堂网手机版 | 国产91小视频在线观看 | 色多视频 | 老师受不了了好硬好大 | 久久精品五月天 | 99国产在线 | 天天噜噜日日噜噜久久综合网 | 国产在线欧美精品卡通动漫 | 亚洲韩国在线一卡二卡 | 久久青青成人亚洲精品 | 久久综合欧美 | 午夜精品福利在线观看 | 97人人在线 | 青草青草视频2免费观看 | 性生大片免费观看无遮挡 | 天天色天天操天天射 | 丁香六月啪啪 |