在Facebook和其他社交媒體平臺(tái)上最常見(jiàn)的分享內(nèi)容之一是照片。雖然大多數(shù)社交媒體用戶都能看懂一張圖片,并了解它所代表的內(nèi)容,但對(duì)于那些盲人或視障人士來(lái)說(shuō)就不那么容易了。Facebook表示,屏幕閱讀器可以使用合成語(yǔ)音描述這些圖片的內(nèi)容,讓盲人或視障用戶能夠理解Facebook feed中的圖片。
然而,許多照片在發(fā)布時(shí)沒(méi)有alt文字,導(dǎo)致Facebook在2016年推出了自動(dòng)替代文本(AAT)。該技術(shù)利用對(duì)象識(shí)別技術(shù)為盲人或視障用戶按需生成照片的描述。自2016年以來(lái),F(xiàn)acebook一直致力于改進(jìn)AAT,并在最近推出了下一代技術(shù)。Facebook在AAT上的進(jìn)步改善了用戶的照片體驗(yàn),AAT可以可靠地檢測(cè)和識(shí)別照片中的概念數(shù)量擴(kuò)大了十倍以上。這意味著沒(méi)有描述的照片減少了,提供的描述也更加詳細(xì)。AAT可以識(shí)別活動(dòng)、地標(biāo)、動(dòng)物類型等等。
AAT現(xiàn)在會(huì)給出這樣的描述:“可能是兩個(gè)人的自拍,戶外,比薩斜塔”。Facebook還表示,能夠在照片中加入有關(guān)元素的潛在位置和相對(duì)大小的信息是行業(yè)首創(chuàng)。它不是簡(jiǎn)單地描述 “可能是五人的合影”,而是描述成“兩個(gè)人在照片的中心,另外三個(gè)人向邊緣分散。”
Facebook表示,這一進(jìn)步可以幫助盲人或視力受損的用戶更好地理解家人和朋友發(fā)布照片中的內(nèi)容。最新版本的AAT使用了一個(gè)在數(shù)十億張Instagram公開圖片和標(biāo)簽數(shù)據(jù)上訓(xùn)練出來(lái)的模型。訓(xùn)練后產(chǎn)生的模型更加準(zhǔn)確,并且在文化和人口統(tǒng)計(jì)方面更具包容性。改進(jìn)后的AAT可以可靠地識(shí)別1200多個(gè)概念。
責(zé)編AJX
-
AI
+關(guān)注
關(guān)注
88文章
35041瀏覽量
279228 -
Facebook
+關(guān)注
關(guān)注
3文章
1432瀏覽量
56647 -
照片
+關(guān)注
關(guān)注
0文章
15瀏覽量
9713
發(fā)布評(píng)論請(qǐng)先 登錄
騰視科技TS-NV-P100系列AI邊緣算力盒子綜合算力高達(dá)157TOPS:重新定義AI邊緣算力,賦能千行百業(yè)智能化升級(jí)

騰視科技TS-NV-P100系列AI邊緣算力盒子綜合算力高達(dá)157TOPS:重新定義AI邊緣算力,賦能千行百業(yè)智能化升級(jí)
Gemini Vision + Raspberry Pi 化身“數(shù)字導(dǎo)盲犬”?

RDK加持的導(dǎo)盲眼鏡:視障人士的“眼睛外掛”

百度AI手語(yǔ)數(shù)字人助力聽(tīng)障人士“聽(tīng)見(jiàn)”聲音
海康威視通過(guò)IEC 62443-4-1認(rèn)證

AI賦能銳視測(cè)控平臺(tái)

使用NVIDIA Jetson打造機(jī)器人導(dǎo)盲犬
使用機(jī)器學(xué)習(xí)和NVIDIA Jetson邊緣AI和機(jī)器人平臺(tái)打造機(jī)器人導(dǎo)盲犬
助盲環(huán)境感知裝置設(shè)計(jì)方案

如何通過(guò)改善工藝解決電感噪音問(wèn)題
利用圖像處理板避障 讓小型飛行器像昆蟲一樣靈巧

智行者——視聽(tīng)障礙者出行輔助AI小車設(shè)計(jì)

強(qiáng)強(qiáng)聯(lián)合!深視智能攜手Zebra公司成功舉辦“3D機(jī)器視覺(jué)+AI融合技術(shù)”研討會(huì)

評(píng)論