近日,微軟官網宣布了一項重要更新。微軟發布了其視覺Agent解析框架OmniParser的最新版本V2。這一新版本具備將包括OpenAI的4o、o1、o3-mini,DeepSeek的R1,Qwen的2.5VL,以及Anthropic的Sonnet在內的大模型,轉化為“計算機使用智能體”(Computer Use Agent)的能力。
與前代版本相比,OmniParser V2在多個方面實現了顯著提升。在檢測更微小、可交互的元素時,V2展現了更高的精度和更快的推理速度。這一提升得益于V2采用了更大規模的交互元素檢測數據集和圖標功能描述數據進行訓練。
此外,OmniParser V2還通過縮小圖標描述模型的輸入圖像尺寸,進一步優化了推理性能。據微軟官方數據,與前代版本相比,V2的推理延遲降低了60%。這一改進使得OmniParser V2在處理復雜視覺任務時更加高效,為用戶提供了更加流暢、實時的交互體驗。
此次OmniParser V2的發布,不僅展示了微軟在人工智能領域的持續創新,也為大模型在計算機智能體領域的應用開辟了新的道路。
-
微軟
+關注
關注
4文章
6651瀏覽量
105251 -
計算機
+關注
關注
19文章
7607瀏覽量
89866 -
數據集
+關注
關注
4文章
1221瀏覽量
25205 -
大模型
+關注
關注
2文章
2949瀏覽量
3686
發布評論請先 登錄
相關推薦
硅基覺醒已至前夜,聯發科攜手生態加速智能體化用戶體驗時代到來
軟通計算機重磅發布DeepSeek大模型一體機產品

機智云發布Gokit5 AI智能體開發板:工業級智能體流水線重構AIoT開發范式

評論