在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

哈工大提出Myriad:利用視覺專家進行工業異常檢測的大型多模態模型

CVer ? 來源:CVer ? 2023-11-21 16:08 ? 次閱讀

一句話總結

通過應用視覺專家進行工業異常檢測,以實現明確的異常檢測和高質量的異常描述,還可進行多輪對話,性能表現出色!優于AnomalyGPT等網絡,代碼即將開源!

Myriad

81612fa6-8842-11ee-939d-92fbcf53809c.png

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection

單位:哈工大(左旺孟團隊), 琶洲實驗室

論文:https://arxiv.org/abs/2310.19070

代碼:https://github.com/tzjtatata/Myriad

現有的工業異常檢測(IAD)方法可以預測異常檢測和定位的異常分數。然而,它們很難對異常區域進行多輪對話和詳細描述,例如工業異常的顏色、形狀和類別。

最近,大型多模態(即視覺和語言)模型(LMM)在圖像描述、視覺理解、視覺推理等多種視覺任務上表現出了卓越的感知能力,使其成為更易于理解的異常檢測的有競爭力的潛在選擇。然而,現有的通用 LMM 中缺乏有關異常檢測的知識,而訓練特定的 LMM 進行異常檢測需要大量的注釋數據和大量的計算資源。

本文提出了一種新穎的大型多模態模型,通過應用視覺專家進行工業異常檢測(稱為Myriad),從而實現明確的異常檢測和高質量的異常描述。

8174db1e-8842-11ee-939d-92fbcf53809c.png

具體來說,采用 MiniGPT-4 作為基礎 LMM,并設計一個專家感知模塊,將視覺專家的先驗知識嵌入到大型語言模型(LLM)可以理解的標記中。

817bd270-8842-11ee-939d-92fbcf53809c.png

為了彌補視覺專家的錯誤和困惑,引入了域適配器來彌合通用圖像和工業圖像之間的視覺表示差距。此外,提出了一個視覺專家講師,它使 Q-Former 能夠根據視覺專家先驗生成 IAD 領域視覺語言標記。

實驗結果

在MVTec-AD 和 VisA 基準上的大量實驗表明,本文提出的方法不僅在 1-class 和少樣本設置下比最先進的方法表現更好,而且還提供了明確的異常預測以及 IAD 中的詳細描述領域。

818720f8-8842-11ee-939d-92fbcf53809c.png

8193e388-8842-11ee-939d-92fbcf53809c.png

81d184e0-8842-11ee-939d-92fbcf53809c.png

81ed7236-8842-11ee-939d-92fbcf53809c.png

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3500

    瀏覽量

    50113
  • 視覺
    +關注

    關注

    1

    文章

    157

    瀏覽量

    24305
  • 大模型
    +關注

    關注

    2

    文章

    3060

    瀏覽量

    3895

原文標題:工業異常檢測大模型來了!哈工大提出Myriad:利用視覺專家進行工業異常檢測的大型多模態模型

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    愛芯通元NPU適配Qwen2.5-VL-3B視覺模態模型

    InternVL2.5-1B/8B/MPO,Huggingface推出的全球最小模態模型SmloVLM-256M。為工業界提供了離線部署
    的頭像 發表于 04-21 10:56 ?1269次閱讀
    愛芯通元NPU適配Qwen2.5-VL-3B<b class='flag-5'>視覺</b><b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>

    基于MindSpeed MM玩轉Qwen2.5VL模態理解模型

    模態理解模型是讓AI像人類一樣,通過整合多維度信息(如視覺、語言、聽覺等),理解數據背后的語義、情感、邏輯或場景,從而完成推理、決策等任務。
    的頭像 發表于 04-18 09:30 ?863次閱讀
    基于MindSpeed MM玩轉Qwen2.5VL<b class='flag-5'>多</b><b class='flag-5'>模態</b>理解<b class='flag-5'>模型</b>

    移遠通信智能模組全面接入模態AI大模型,重塑智能交互新體驗

    全系智能模組產品已全面接入火山引擎豆包VLM(視覺語言)模態AI大模型。這一突破性進展表明,搭載移遠任意智能模組的終端設備,均可無縫融合
    發表于 03-21 14:12 ?241次閱讀
    移遠通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大<b class='flag-5'>模型</b>,重塑智能交互新體驗

    移遠通信智能模組全面接入模態AI大模型,重塑智能交互新體驗

    智能模組產品已全面接入火山引擎豆包VLM(視覺語言)模態AI大模型。這一突破性進展表明,搭載移遠任意智能模組的終端設備,均可無縫融合
    的頭像 發表于 03-20 19:03 ?382次閱讀
    移遠通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大<b class='flag-5'>模型</b>,重塑智能交互新體驗

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結合視覺(圖像/視頻)和語言(文本)處理能力的模態人工智能
    的頭像 發表于 03-17 15:32 ?3204次閱讀
    ?VLM(<b class='flag-5'>視覺</b>語言<b class='flag-5'>模型</b>)?詳細解析

    ?模態交互技術解析

    模態交互 模態交互( Multimodal Interaction )是指通過多種感官通道(如視覺、聽覺、觸覺等)或多種交互方式(如語音
    的頭像 發表于 03-17 15:12 ?1781次閱讀

    使用OpenVINO? 2021.4在CPU和MYRIAD進行自定義對象檢測,為什么結果差異巨大?

    使用自定義訓練的模型執行推理,以便在 2021.4 OpenVINO?中進行人員檢測。 與 MYRIAD 相比,CPU 的輸出結果取得了巨大的差異
    發表于 03-06 07:45

    使用myriad_compile將IR模型轉換為blob后收到錯誤怎么解決?

    使用模型優化器將自定義 TensorFlow* 2 模型轉換為中間表示 (IR)。 使用 myriad_compile 將 IR 模型轉換為 blob 并收到錯誤: 遇到未知輸入類型
    發表于 03-05 08:27

    ??低暟l布模態模型文搜存儲系列產品

    模態模型為安防行業帶來重大技術革新,基于觀瀾大模型技術體系,??低晫⒋髤盗?、大樣本量的圖文模態
    的頭像 發表于 02-18 10:33 ?558次閱讀

    一文詳解視覺語言模型

    視覺語言模型(VLM)是一種模態、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發表于 02-12 11:13 ?1589次閱讀
    一文詳解<b class='flag-5'>視覺</b>語言<b class='flag-5'>模型</b>

    商湯日日新模態模型權威評測第一

    剛剛,商湯科技日日新SenseNova模態模型,在權威綜合評測權威平臺OpenCompass的模態評測中取得榜單第一。
    的頭像 發表于 12-20 10:39 ?925次閱讀

    一文理解模態大語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態大語言模型 - 上》介紹了什么是模態大語言
    的頭像 發表于 12-03 15:18 ?543次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態</b>大語言<b class='flag-5'>模型</b>——下

    利用OpenVINO部署Qwen2模態模型

    模態模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說
    的頭像 發表于 10-18 09:39 ?1117次閱讀

    華工科技聯合哈工大實現國內首臺激光智能除草機器人落地

    華工科技黨委書記、董事長、總裁馬新強一行赴哈爾濱對哈爾濱工業大學機器人技術與系統全國重點實驗室(后簡稱哈工大機器人實驗室)、愛輝區智能激光除草機器人試點基地進行實地調研,代表華工科技中央研究院同
    的頭像 發表于 09-06 10:45 ?1302次閱讀

    云知聲推出山海模態模型

    在人工智能技術的浩瀚星海中,模態交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創新之姿,推出了其匠心獨運的山海模態
    的頭像 發表于 08-27 15:20 ?599次閱讀
    主站蜘蛛池模板: 欧美色视频日本 | 四虎精品成人免费观看 | 日操夜操 | 欧美色视频日本片高清在线观看 | 日韩高清特级特黄毛片 | 22sihu国产精品视频影视资讯 | 黄a网站| 五月激情六月丁香 | 日韩精品午夜 | 起碰成人免费公开网视频 | xxxxxx日本人免费 | 日本在线不卡免费 | 天天色天天碰 | 给我一个可以看片的www日本 | 真实女人寂寞偷人视频 | 7799国产精品久久久久99 | 国产一区国产二区国产三区 | 99亚洲精品卡2卡三卡4卡2卡 | 黄乱色伦 | 美女被免费视频网站九色 | 啪啪影城| 亚色在线视频 | 午夜剧场刺激性爽免费视频 | 中文在线天堂网 | 亚洲va久久久噜噜噜久久男同 | 性欧美成人依依影院 | 国产va免费精品高清在线观看 | 性夜黄a爽爽免费视频国产 羞羞答答xxdd影院欧美 | 欧美美女福利视频 | 你懂的网站在线播放 | 午夜在线一区 | 伊人久久综合网站 | 天天操视频 夜夜 | 四虎在线最新永久免费 | 97se狠狠狠狠狼亚洲综合网 | 91天天干| 青楼社区51在线视频视频 | 黄色毛片免费看 | 久久天天躁狠狠躁夜夜爽 | 色香蕉网站| 手机看片1024精品日韩 |