深度學(xué)習(xí)生成表情包,笑不笑由你。
自從有了表情包,跟人聊天時的第一反應(yīng),就是去找找看有什么適合的表情。
有一類表情包,形式是文字+圖,尤其能夠精妙地抒發(fā)和傳遞感情。
在這一點上,可能全世界的網(wǎng)友都一樣。
好用的表情永遠(yuǎn)不嫌多,而且似乎總是不夠用。
怎么辦?
好在我們有深度學(xué)習(xí)。
表情包,一個天然的圖說生成問題
斯坦福大學(xué)的Abel L. Peirson V和E. Meltem Tolunayl,在這一期斯坦福深度學(xué)習(xí)自然語言處理課程CS224n的期末作業(yè)中,提交了一個表情包生成器,使用深度學(xué)習(xí),制作“圖片+文字”型的表情包。
下面這些都是他們的系統(tǒng)自動生成的結(jié)果。不得不說,深得表情包制作精髓。
這個表情包生成器的基本的框架是一個編碼器-解碼器圖說生成系統(tǒng),先進(jìn)行CNN圖像嵌入,然后用一個LSTM RNN進(jìn)行文字生成。
其中,編碼器的目標(biāo)是要給出一個有意義的狀態(tài),讓解碼器開始進(jìn)行文字生成。他們使用在ImageNet上預(yù)訓(xùn)練的Inception-v3做為編碼器模型,并將最后一層隱藏CNN作為編碼器的輸出。當(dāng)表情包模板進(jìn)入Inception模型后,輸出是一組長度固定的向量,也即圖像嵌入,能夠反映圖像的內(nèi)容。這個圖像嵌入之后會被投射到詞嵌入空間里,方便后續(xù)文字生成。
他們一共嘗試了3種不同的編碼器模型,最簡單的一種只輸入圖像,另一種輸入圖像和標(biāo)簽,最后一種的輸入也是圖像和標(biāo)簽,但使用了注意力機制。至于解碼器,都是一個單向LSTM。這樣搭配組合成了3種編碼器-解碼器方案。下圖展示了第二種方案的模型。
學(xué)習(xí)40萬個表情,幽默程度媲美人類
數(shù)據(jù)集是這個表情包生成器的精髓。他們的數(shù)據(jù)集由大約40萬張帶標(biāo)簽和圖說的圖片組成。其中有2600個獨特的圖像-標(biāo)簽對,是他們寫Python腳本從Memegenerator.net中獲取的。一張圖片對應(yīng)一個標(biāo)簽,標(biāo)簽是對這幅圖的簡單描述,而每張圖都與很多不同的圖說(大約160個)相關(guān)聯(lián)。
下圖展示了數(shù)據(jù)的樣本:
在訓(xùn)練前,他們還針對圖說中的標(biāo)點、格式和某些詞出現(xiàn)的頻率等進(jìn)行了預(yù)處理。
訓(xùn)練的結(jié)果,深度學(xué)習(xí)生成了各種表情:
系統(tǒng)看過的圖像(左邊4張)的輸入標(biāo)簽是來自訓(xùn)練集的標(biāo)簽,而對于沒見過的圖像(右邊4張),我們使用的句子是“AI是新的電力”。
從語法、搞笑程度和可區(qū)分性(分辨是人制作的還是深度學(xué)習(xí)生成的)幾個維度判斷,深度學(xué)習(xí)表情包生成器取得了不錯的效果。尤其是搞笑程度,因為這一點是制作表情包的初衷,普通表情包的搞笑程度7分(滿分10分),深度學(xué)習(xí)生成的表情包最高達(dá)到了6.8。
兩位作者指出,幽默是很難評判的事情,本身就是一個很深的研究領(lǐng)域。他們的這項工作十分基礎(chǔ),接下來如果能構(gòu)建出能夠自動斷句的表情包生成器(就是自動判斷圖片上方和下方兩行文字從哪里斷開),將會是一個很大的進(jìn)步。(因為使用的都是網(wǎng)絡(luò)熱圖,因此數(shù)據(jù)含有性別歧視和不文明的成分。)此外,探索視覺注意力機制在表情包生成中的作用,也是一個不錯的研究方向。
-
編碼器
+關(guān)注
關(guān)注
45文章
3673瀏覽量
135310 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5518瀏覽量
121603 -
cnn
+關(guān)注
關(guān)注
3文章
353瀏覽量
22352
原文標(biāo)題:深度學(xué)習(xí)了40萬個表情,一大波AI 表情包來了
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論