Hugging Face平臺于1月23日發(fā)布博文,推出了兩款令人矚目的輕量級AI模型——SmolVLM-256M-Instruct和SmolVLM-500M-Instruct。
其中,SmolVLM-256M-Instruct僅有2.56億參數(shù),是有史以來發(fā)布的最小視覺語言模型,可在內(nèi)存低于1GB的PC上運(yùn)行并提供卓越性能。SmolVLM-500M-Instruct有5億參數(shù),主要針對硬件資源限制,幫助開發(fā)者應(yīng)對大規(guī)模數(shù)據(jù)分析挑戰(zhàn)。
這兩款模型具備先進(jìn)的多模態(tài)能力,可執(zhí)行圖像描述、短視頻分析以及回答關(guān)于PDF或科學(xué)圖表的問題等任務(wù)。其開發(fā)依賴于The Cauldron和Docmatix兩個專有數(shù)據(jù)集。The Cauldron包含50個高質(zhì)量圖像和文本數(shù)據(jù)集,側(cè)重于多模態(tài)學(xué)習(xí);Docmatix專為文檔理解定制,將掃描文件與詳細(xì)標(biāo)題配對以增強(qiáng)理解。
此外,模型采用了更小的視覺編碼器SigLIP base patch-16/512,通過優(yōu)化圖像標(biāo)記處理方式,減少了冗余,還將圖像編碼速率提升至每個標(biāo)記4096像素,相比早期版本的每標(biāo)記1820像素有了顯著改進(jìn)。
Hugging Face此次推出的最小AI視覺語言模型,為AI在低資源設(shè)備上的應(yīng)用開辟了新的道路。
-
人工智能
+關(guān)注
關(guān)注
1796文章
47683瀏覽量
240302 -
語言模型
+關(guān)注
關(guān)注
0文章
538瀏覽量
10342 -
AI視覺
+關(guān)注
關(guān)注
0文章
66瀏覽量
4510
發(fā)布評論請先 登錄
相關(guān)推薦
廣和通推出AI玩具大模型解決方案
AI大語言模型開發(fā)步驟
NaVILA:加州大學(xué)與英偉達(dá)聯(lián)合發(fā)布新型視覺語言模型
大語言模型開發(fā)語言是什么
谷歌全新推出開放式視覺語言模型PaliGemma
谷歌推出效率與性能躍階的全新開放模型標(biāo)準(zhǔn)
![谷歌<b class='flag-5'>推出</b>效率與性能躍階的全新開放<b class='flag-5'>模型</b>標(biāo)準(zhǔn)](https://file1.elecfans.com/web2/M00/05/C7/wKgZombeqGGAMx_IAAHxD9e82Fk135.png)
借助Arm Neoverse加速Hugging Face模型
![借助Arm Neoverse加速<b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b><b class='flag-5'>模型</b>](https://file1.elecfans.com/web2/M00/05/CD/wKgaombVJraAfHYlAAA6i2yywfs469.jpg)
Hugging Face科技公司推出SmolLM系列語言模型
亞馬遜云攜手AI新創(chuàng)企業(yè)Hugging Face,提升AI模型在定制芯片計(jì)算性能
Hugging Face提供1000萬美元免費(fèi)共享GPU
Hugging Face推出開源機(jī)器人代碼庫LeRobot
Snowflake推出面向企業(yè)AI的大語言模型
【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)
Stability AI發(fā)布Stable Code Instruct 3B大語言模型,可編譯多種編程語言
ServiceNow、Hugging Face 和 NVIDIA 發(fā)布全新開放獲取 LLM,助力開發(fā)者運(yùn)用生成式 AI 構(gòu)建企業(yè)應(yīng)用
![ServiceNow、<b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> 和 NVIDIA 發(fā)布全新開放獲取 LLM,助力開發(fā)者運(yùn)用生成式 <b class='flag-5'>AI</b> 構(gòu)建企業(yè)應(yīng)用](https://file1.elecfans.com/web2/M00/C2/0B/wKgZomXf9qGAW44zAAB3CO-K2X8824.jpg)
評論