據(jù)悉,Apple近期發(fā)表了有關(guān)于Ferret-UI AI系統(tǒng)的研究論文,這款新型AI系統(tǒng)可理解應(yīng)用程序屏幕上的內(nèi)容。
目前圍繞人工智能(AI)技術(shù),出現(xiàn)了如ChatGPT這樣的大語言模型(LLMs),這些模型擅長處理文本資料。然而,對于像圖片、視頻和聲音等多媒體類型的非文本n內(nèi)容,就需要擴大AI模型的適用范圍,相應(yīng)地,多模態(tài)大語言模型(MLLMs)也就應(yīng)運而生。
盡管MLLMs已表現(xiàn)出對移動應(yīng)用程序的理解不足,具體表現(xiàn)在以下幾點:
首先,智能手機屏幕的寬高比和大多數(shù)訓(xùn)練視覺模型所使用的比例不同;其次,MLLMs需要識別出較小的圖標(biāo)和按鈕。
針對以上問題,Apple提出了名為“Ferret-UI”的MLLM系統(tǒng),以應(yīng)對這些挑戰(zhàn)。系統(tǒng)通過引入WMDR(任意分辨率),提升模型在處理用戶界面任務(wù)時的辨識度,使其能更好地識別和理解小圖標(biāo)、文字等元素。
此外,我們專門采集了大量與初級用戶界面任務(wù)相關(guān)的樣本,包括圖標(biāo)識別、文本查找和小部件列表等。所有樣本均按照區(qū)域注釋指令進(jìn)行設(shè)計,以便于精確解釋和實用化。
為了提高模型的認(rèn)知水平,我們進(jìn)一步定制了高級任務(wù)數(shù)據(jù)集,含括詳細(xì)描寫、感官/互交互對話及功能推理等方面。
該項研究表明,與現(xiàn)行的GPT-4V以及其他MLLMs模型相比,F(xiàn)erret-UI AI模型具有顯著優(yōu)勢。
審核編輯 黃宇
-
人工智能
+關(guān)注
關(guān)注
1804文章
48788瀏覽量
246949 -
語言模型
+關(guān)注
關(guān)注
0文章
560瀏覽量
10695 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1588瀏覽量
8828
發(fā)布評論請先 登錄
【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗】+Agent的案例解讀
高校宿舍改造指南:智能水電計費系統(tǒng)如何破解管理難題?

企業(yè)通過AI技術(shù)定制提升營業(yè)收入
美報告:中國芯片研究論文全球領(lǐng)先
《AI Agent 應(yīng)用與項目實戰(zhàn)》閱讀心得2——客服機器人、AutoGen框架 、生成式代理
中興通訊AiCube:破解AI模型部署難題
Qt Group發(fā)布Qt AI Assistant,助力跨平臺UI開發(fā)
華為懸賞300萬元求解難題 牽引全球數(shù)據(jù)存儲領(lǐng)域基礎(chǔ)理論研究方向
利用VLM和MLLMs實現(xiàn)SLAM語義增強

評論