5 月 28 日,微軟在 Build 2024 大會上推出了最新的 Phi-3 系列成員——Phi-3-vision。這一工具主打視覺應用,能有效處理圖片文字信息,且在移動設備上也能運行自如。
Phi-3-vision 是一種小型多模式語言模型(SLM),主要適用于本地人工智能場景。其模型參數高達 42 億,上下文序列包含 128k 個符號,可滿足各種視覺推理和其他任務需求。
Microsoft 通過一篇新發表的論文[PDF]展示了 Phi-3-vision 的強大實力。與其他模型如 Claude 3-haiku、Gemini 1.0 Pro 相比,Phi-3-vision 毫不遜色。
此外,Microsoft 還對 Phi-3-vision 進行了多項測試,并將其與其他競品模型進行了比較,包括字節跳動的 Llama3-Llava-Next(8B)、微軟研究院與威斯康星大學、哥倫比亞大學聯合開發的 LlaVA-1.6(7B)以及阿里巴巴通義千問 QWEN-VL-Chat 模型等。結果表明,Phi-3-vision 在多個項目中的表現均十分出色。
-
微軟
+關注
關注
4文章
6686瀏覽量
105780 -
人工智能
+關注
關注
1807文章
49029瀏覽量
249649 -
語言模型
+關注
關注
0文章
561瀏覽量
10799
發布評論請先 登錄
日本航空攜手微軟率先將AI應用引入客艙管理
DevEco Studio AI輔助開發工具兩大升級功能 鴻蒙應用開發效率再提升
首創開源架構,天璣AI開發套件讓端側AI模型接入得心應手
添越智創基于 RK3588 開發板部署測試 DeepSeek 模型全攻略
字節跳動發布豆包大模型1.5 Pro
虹軟AI視覺賦能雷鳥V3 AI拍攝眼鏡發布
三星發布Vision AI及Neo QLED旗艦電視
微軟尋求在365 Copilot中引入非OpenAI模型
Meta發布新AI模型Meta Motivo,旨在提升元宇宙體驗
微軟預覽版Copilot Vision AI功能上線
AI干貨補給站04 | 工業AI視覺檢測項目實施第三步:模型構建

用Ollama輕松搞定Llama 3.2 Vision模型本地部署

微軟發布Azure AI Foundry,推動云服務增長
在英特爾酷睿Ultra7處理器上優化和部署Phi-3-min模型

評論