Hugging Face推出最小AI視覺語言模型

Hugging Face平臺于1月23日發(fā)布博文，推出了兩款令人矚目的輕量級AI模型——SmolVLM-256M-Instruct和SmolVLM-500M-Instruct。

其中，SmolVLM-256M-Instruct僅有2.56億參數(shù)，是有史以來發(fā)布的最小視覺語言模型，可在內(nèi)存低于1GB的PC上運行并提供卓越性能。SmolVLM-500M-Instruct有5億參數(shù)，主要針對硬件資源限制，幫助開發(fā)者應(yīng)對大規(guī)模數(shù)據(jù)分析挑戰(zhàn)。

這兩款模型具備先進的多模態(tài)能力，可執(zhí)行圖像描述、短視頻分析以及回答關(guān)于PDF或科學圖表的問題等任務(wù)。其開發(fā)依賴于The Cauldron和Docmatix兩個專有數(shù)據(jù)集。The Cauldron包含50個高質(zhì)量圖像和文本數(shù)據(jù)集，側(cè)重于多模態(tài)學習；Docmatix專為文檔理解定制，將掃描文件與詳細標題配對以增強理解。

此外，模型采用了更小的視覺編碼器SigLIP base patch-16/512，通過優(yōu)化圖像標記處理方式，減少了冗余，還將圖像編碼速率提升至每個標記4096像素，相比早期版本的每標記1820像素有了顯著改進。

Hugging Face此次推出的最小AI視覺語言模型，為AI在低資源設(shè)備上的應(yīng)用開辟了新的道路。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1805

文章
48833

瀏覽量
247321
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
561

瀏覽量
10704
AI視覺

AI視覺

+關(guān)注

關(guān)注
0

文章
84

瀏覽量
4723

麥辣雞腿堡
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關(guān)注個人主頁

Hot 麒麟9000s相當于驍龍多少和驍龍多少處理器相當
Hot 華為麒麟9000s是多少納米的麒麟9000s什么檔次

New 15KV ESD保護 RS-232發(fā)射器/接收器ICL3237E數(shù)據(jù)手冊
New ICL3223 1A電源電流250kbps RS-232發(fā)射器/接收器數(shù)據(jù)手冊

精選推薦
更多

文章

資料

帖子

從行業(yè)痛點到創(chuàng)新解決血氧儀驅(qū)動方案--【其利天下】

其利天下技術(shù)
6小時前

174 閱讀

CMOS的邏輯門如何應(yīng)用在電路中

深圳合科泰
7小時前

184 閱讀

用MPS HR1211實現(xiàn)數(shù)字PFC+LLC控制器解決方案助力快充適配器

向上
8小時前

196 閱讀

Altera Stratix 10和Agilex 7 FPGA的電源管理及配置問題案例

駿龍電子
8小時前

217 閱讀

告別反復燒錄！LVGL電腦仿真開發(fā)，效率飆升10倍！

東璧科苑
9小時前

168 閱讀

無人機系統(tǒng)發(fā)展趨勢與解決方案集錦

Duke
1043KB

3積分

96下載

LTE演進的物聯(lián)網(wǎng)連接_英版

李蒙蒙
259 KB

1積分

0下載

xsec-proxy-scanner代理掃描器

碩達科訊
0.02 MB

2積分

5下載

Lemon-IMUI基于Vue的IM聊天組件

李華瑞
0.36 MB

2積分

1下載

模擬電子技術(shù)基礎(chǔ)

feng_2022
5.50 MB

1積分

199下載

電容三點式無法起振的原因

jf_01102310
23小時前

223 閱讀

HarmonyOS NEXT意圖框架習慣推薦二場景開發(fā)實現(xiàn)

李洋水蛟龍
23小時前

165 閱讀

一種采用NMOS濾出開關(guān)電源輸出紋波的電路

chunlai_zhang
23小時前

192 閱讀

【米爾-全志T536開發(fā)板試用體驗】- 多協(xié)議物聯(lián)網(wǎng)關(guān)的開發(fā)測試

ALSET
9天前

244 閱讀

[經(jīng)驗] RT-Thread 潘多拉 STM32L475

jf_42241628
23小時前

396 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

Hugging Face推出最小AI視覺語言模型

評論