在IBM最新的論文中,研究人員提出了一種能自主制作多樣化、創(chuàng)造性和符合人類語境的圖片文字說明的模型。實(shí)驗(yàn)證明,圖片的文字說明取得了“良好”的性能,未來可以為強(qiáng)大的新計(jì)算機(jī)視覺系統(tǒng)奠定了基礎(chǔ)。
無論是報(bào)社、雜志社還是新媒體,編輯們最不愿意干得事情就是為圖片搭配文字說明。事實(shí)上這項(xiàng)工作必要且重要但實(shí)際操作上又非常枯燥。
不過,一個振奮人心的消息是,AI可能很快就能處理大部分工作。6月18日在加州長灘舉行的2019年計(jì)算機(jī)視覺和模式識別會議(CVPR)上,Pierre L. Dognin, Igor Melnyk, Youssef Mroueh, Jarret Ross, Tom Sercu發(fā)表了一篇論文《改進(jìn)圖像說明的對抗性語義對齊》,提出了一種能夠自主制作多樣化、創(chuàng)造性和符合人類語境的圖片文字說明的模型。
在論文中,他們將圖像說明作為一種有條件的GAN(生成式對抗網(wǎng)絡(luò))訓(xùn)練進(jìn)行研究,提出了一種上下文感知的LSTM字幕器和共同注意鑒別器,它們加強(qiáng)了圖像和字幕之間的語義對齊。
研究人員根據(jù)經(jīng)驗(yàn)著重研究了SCST和ST兩種訓(xùn)練方法的可行性。他們發(fā)現(xiàn)即使沒有直接訪問鑒別器梯度,SCST也比ST顯示出更穩(wěn)定的梯度行為和更好的結(jié)果。進(jìn)而還解決了對這些模型進(jìn)行自動評估的開放性問題,引入了一個新的語義評分,并證明了它與人類判斷的強(qiáng)相關(guān)性。
作為評估范例,一個重要的標(biāo)準(zhǔn)是生成器能夠概括出平常不會一起出現(xiàn)的對象之間的組合關(guān)系。為此研究人員引入了一個小標(biāo)題能脫離上下文(OOC)測試集。OOC與常規(guī)語義評分相結(jié)合,為圖片搭配說明文字得體系提出了新基準(zhǔn)。當(dāng)面向OOC和MS-COCO進(jìn)行測試時,可以發(fā)現(xiàn)基于SCST的訓(xùn)練在語義評分和人類評估方面都有很強(qiáng)的表現(xiàn),有望成為高效離散GAN訓(xùn)練的一種有價值的新方法。
目前,構(gòu)建系統(tǒng)需要解決自動說明文字系統(tǒng)的一個主要缺點(diǎn):順序語言生成導(dǎo)致語法正確—但同質(zhì)、非自然和語義不相關(guān)的結(jié)構(gòu)。
研究者的方法是通過一個注意力文字說明模型來解決這個問題,模型使用它正在觀察的照片中的場景片段來造句。在每一個生成步驟中,團(tuán)隊(duì)的AI都可以選擇關(guān)注最后一步的視覺或文本提示。
為了確保生成的文字說明聽起來不太機(jī)械化,研究團(tuán)隊(duì)在訓(xùn)練時使用了生成對抗網(wǎng)絡(luò)(GANs)——由生成樣本的生成器和試圖區(qū)分生成樣本和現(xiàn)實(shí)世界樣本的鑒別器組成的兩部分神經(jīng)網(wǎng)絡(luò)。共同注意鑒別器通過一個在像素級匹配場景和生成單詞的模型對新句子的“自然度”進(jìn)行評分,使文字說明者能夠通過圖像和句子成對來進(jìn)行合成。
文字說明系統(tǒng)中的另一個常見問題是,如何避免訓(xùn)練數(shù)據(jù)集的偏差,即經(jīng)常遭受過度擬合(特定數(shù)據(jù)集過于接近的分析)就需要構(gòu)建診斷工具,否則并不適合推廣到學(xué)習(xí)對象(“床和臥室”)出現(xiàn)在看不見的環(huán)境(“床和森林”)中的場景。為此,研究人員提出了一種標(biāo)題圖像的測試語料庫,其設(shè)計(jì)方式使得不良模型性能表明過度擬合。
在實(shí)驗(yàn)中,Amazon's Mechanical Turk評估人員負(fù)責(zé)識別AI模型生成的文字說明,并判斷每句話對相應(yīng)圖像的描述程度,給出幾個真實(shí)的和合成的樣本,研究人員表示,他們的文字說明總體上取得了“良好”的性能。他們相信他們的工作為強(qiáng)大的新計(jì)算機(jī)視覺系統(tǒng)奠定了基礎(chǔ),并打算在未來的工作中繼續(xù)探索這些系統(tǒng)。另外,銜接語言和視覺語義的鴻溝表明需要將常識和推理融入場景理解中。
未來,圖像文字說明的自動生成和場景理解的進(jìn)步,使AI系統(tǒng)可以作為視覺障礙者的助理改善他們的日常生活。
-
IBM
+關(guān)注
關(guān)注
3文章
1820瀏覽量
75784 -
AI
+關(guān)注
關(guān)注
88文章
35042瀏覽量
279242
原文標(biāo)題:IBM發(fā)布最新AI模型,幫視障者“看”到更多
文章出處:【微信號:Aiobservation,微信公眾號:人工智能觀察】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
DevEco Studio AI輔助開發(fā)工具兩大升級功能 鴻蒙應(yīng)用開發(fā)效率再提升
海康威視發(fā)布多模態(tài)大模型AI融合巡檢超腦
首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手
海康威視發(fā)布大模型一體化平臺
Banana Pi 發(fā)布 BPI-AI2N & BPI-AI2N Carrier,助力 AI 計(jì)算與嵌入式開發(fā)
RDK加持的導(dǎo)盲眼鏡:視障人士的“眼睛外掛”

IBM發(fā)布全新Granite 3.2 AI模型
IBM在watsonx.ai平臺推出DeepSeek R1蒸餾模型
DeepSeek最新AI模型現(xiàn)已登陸IBM watsonx.ai平臺
IBM攜手歐萊雅開發(fā)首個可持續(xù)化妝品AI模型
IBM推出高性能AI模型Granite 3.0
IBM發(fā)布Granite 3.0 AI模型家族
IBM發(fā)布面向企業(yè)的人工智能模型新版本
IBM Granite系列模型被Forrester評為“強(qiáng)勁表現(xiàn)者”
智行者——視聽障礙者出行輔助AI小車設(shè)計(jì)

評論