長期以來,AI的目標就是準確地描述圖像,而不僅僅是像笨拙的機器人。谷歌在2016年表示,其人工智能可以為人類提供幾乎與人類一樣的字幕圖像,準確度達到94%。現(xiàn)在,微軟表示,它走得更遠:它的研究人員建立了一個AI系統(tǒng),甚至比人類更準確-以至于現(xiàn)在坐上了榜首的nocaps圖像字幕標桿。微軟聲稱其自2015年以來一直使用的圖像字幕模型要好兩倍。
盡管這本身就是一個顯著的里程碑,但微軟不僅僅是將這項技術保留在自己手中。現(xiàn)在,它作為Azure認知服務的一部分提供了新的字幕模型,因此任何開發(fā)人員都可以將其引入他們的應用程序中。今天,它也可以在Seeing AI中使用,Seeing AI是面向盲人和視障用戶的Microsoft應用程序,可以描述周圍的世界。今年下半年,字幕模型還將改善您在PowerPoint中針對Web,Windows和Mac的演示文稿。它還會在桌面平臺的Word和Outlook中彈出。
Azure AI的CVP Eric Boyd在接受Engadget采訪時說:“圖像捕獲是AI中最難的問題之一。它不僅代表理解場景中的對象,還包括它們之間的交互方式,以及如何描述它們。”精細的字幕技術可以為每個用戶提供幫助:它使在搜索引擎中查找所需圖像變得更加容易;對于視障用戶,它可以使瀏覽網(wǎng)絡和軟件變得更加出色。
看到公司吹捧他們的AI研究創(chuàng)新并不少見,但是將這些發(fā)現(xiàn)迅速部署到運輸產(chǎn)品中卻很少見。Azure AI認知服務的CTO Huang Xuedong出于對用戶的潛在好處,推動將其迅速集成到Azure中。他的團隊使用標記有特定關鍵字的圖像對模型進行了訓練,這有助于使它成為大多數(shù)AI框架所沒有的視覺語言。通常,這些類型的模型是使用圖像和完整標題訓練的,這使得模型更難于學習特定對象的交互方式。
“視覺詞匯預訓練本質(zhì)上是訓練系統(tǒng)所需的教育;我們正在嘗試教育這種運動記憶,”黃在博客文章中說。這就是這種新模型在nocaps基準測試中的優(yōu)勢,該基準測試側(cè)重于確定AI可以如何為字幕創(chuàng)建字幕,這些字幕從未見過。
但是,盡管要打破基準很重要,但微軟新模型的真正考驗將是它在現(xiàn)實世界中的功能。據(jù)博伊德說,Seeing AI開發(fā)人員Saqib Shaik也在自己的盲人手中推動了Microsoft的更大可訪問性,他說這是對他們先前產(chǎn)品的巨大改進。既然微軟已經(jīng)設定了一個新的里程碑,那么有趣的是,看看來自Google和其他研究人員的競爭模型也將如何競爭。
責任編輯:lq
-
微軟
+關注
關注
4文章
6610瀏覽量
104159 -
機器人
+關注
關注
211文章
28501瀏覽量
207472 -
AI
+關注
關注
87文章
31097瀏覽量
269430
發(fā)布評論請先 登錄
相關推薦
攝像頭捕獲 2D 圖像,深度傳感器拉長距離
![攝像頭<b class='flag-5'>捕獲</b> 2D <b class='flag-5'>圖像</b>,深度傳感器拉長距離](https://file.elecfans.com/web2/M00/12/12/poYBAGEl52uAHwuYAAC0nkB9csE515.jpg)
高通AI Hub:輕松實現(xiàn)Android圖像分類
![高通<b class='flag-5'>AI</b> Hub:輕松實現(xiàn)Android<b class='flag-5'>圖像</b>分類](https://file1.elecfans.com/web2/M00/0D/4E/wKgaomdFfv-AV-2HAACUww0CQCg180.png)
AI大模型的訓練數(shù)據(jù)來源分析
AI大模型在圖像識別中的優(yōu)勢
Freepik攜手Magnific AI推出AI圖像生成器
是德DSOX4032A示波器波形捕獲率
![是德DSOX4032A示波器波形<b class='flag-5'>捕獲</b>率](https://file1.elecfans.com//web2/M00/04/B5/wKgZombRdvGAPSIjAABg-5e9eS467.jpeg)
OpenAI發(fā)布圖像檢測分類器,可區(qū)分AI生成圖像與實拍照片
UL Procyon AI 發(fā)布圖像生成基準測試,基于Stable Diffusion
AI女友比AI男友更受歡迎?前者是后者的700%+
cycx3_uvc_ov5640如何添加Method 1支持的靜態(tài)圖像捕獲功能?
Stability AI試圖通過新的圖像生成人工智能模型保持領先地位
![Stability <b class='flag-5'>AI</b>試圖通過新的<b class='flag-5'>圖像</b>生成人工智能模型保持領先地位](https://file1.elecfans.com/web2/M00/C0/2D/wKgZomXTC6yAF6b2AAAZGR4nIDs515.png)
計算機視覺:AI如何識別與理解圖像
![計算機視覺:<b class='flag-5'>AI</b>如何識別與理解<b class='flag-5'>圖像</b>](https://file.elecfans.com/web2/M00/4E/DC/poYBAGLCjeiALm_WAAAYmfR7Qec474.png)
評論