食物是我們每天必不可少的能量補給,也是很多吃貨小伙伴的快樂源泉。計算機視覺的發展,對于食物的分析和推薦為我們的餐桌提供了新的可能。拍一張照片就可以從這一餐的食物中分析出食材的營養成分和卡路里的多少,幫助我們監控每日能量和營養的攝入,并對膳食進行管理。
除了分析和記錄,計算機輔助食物分析還能對食材的屬性進行分析并對烹飪后的食物色、香、味進行預測,不同烹飪方法下食材在最終菜品下呈現的樣式。但食物的烹調方式多種多樣、在不同菜品中呈現的樣子也各不相同,更別說各種無法直接看到的調味料了。如此復雜的視覺任務需要大量的數據來對算法進行訓練,但數據的缺乏阻礙了這一領域的發展。
為了更好地推動這一領域的進步以解決計算機食物分析的挑戰,來自羅格斯大學和三星AI中心的研究人員們提出了一種新的食物合成方法,從食材原料的名字直接合成菜品的圖像,為食物分析和預測提出了新的可能。對于食物圖像的生成,研究人員們進行了諸多有益的探索。雖然基于CycleGAN的方法實現了對食物的風格遷移,但是目前還沒有能夠從不同的食材配料中直接生成食物圖像的方法。
食物圖像合成不僅引入了包括食材屬性、加工方法、烹調方式的復雜性,同時多樣性的菜品還極度依賴烹調的過程,生成模型必須能捕捉信息中隱含的關鍵點才能重建出有效的菜品。
在這篇文章中,研究人員結合基于注意力的菜譜相關模型和StackGAN來從食材中生成對應的菜品圖像,隨后利用了循環連續約束來進一步提高了生成圖像的質量、并有效改進了改變原料后生成的菜品效果。
尋找食材與食物圖像共同的隱空間
為了尋找到更為合適的編碼來表示食材與食物圖像間的關系,研究人員使用了基于注意力的聯合模型來訓練得到隱空間的編碼方法。這一模型一共包含了三部分,分別是食材編碼器、聯合食物隱空間和美食圖像編碼器。
整個網絡的目的是將食材信息從文字中抽取出來并送入對應的編碼隱空間中去,而對應的食物圖像也進行編碼映射到隱空間中,并最大化食材信息編碼和對應圖像編碼的余弦相似性。
基于注意力交叉聯合模型與隱空間,包含了從食材/圖像分別到FoodSpace聯合隱空間的編碼與映射。
食材原料編碼器的目的在于將菜譜中的食材轉化為共享隱含空間中的特征。這一部分的目標是尋找出食材間隱含的關系,甚至將佐料這樣不明顯的配料信息也挖掘出來。
研究人員通過獨特編碼的食材嵌入到低維向量空間中,并作為序列輸入到雙邊的LSTM中進行訓練,每一層的隱空間輸出都作為對應食材的特征,并在最后利用注意力機制將這些特征融合起來,基于加權方法融合所有的隱含狀態,最終映射共享食物隱含空間中的高維食材特征p(1024維)。圖像編碼器的目的是將食物圖像轉換為食物空間中的特征,利用Resent50作為主干網絡,并利用UPMC-Food-101對模型進行精調最后利用平均池化后的激活(2048維),映射到食物空間中去得到隱變量q(1024維)。
通過對兩種模態數據在共享隱空間中的訓練后,得到了有效的食材特征表示p,我們就可以基于這一有效的特征利用GAN來合成逼真、有效穩定的食物圖像了。
生成菜品
為了將輸入的食材單轉換為對應菜品的圖像,研究人員基于StackGAN-v2來生成菜品圖像。這一模型包含了三個分支,每一分支都負責生成某種分辨率下的圖像,也對應著自己獨立的判別器(對應高、中、低分辨率的生成圖像)。
菜譜中的食材數據首先被編碼成共享隱空間中的向量p+,隨后利用條件增強網絡Fca來估計外觀因子相關的分布p(c|p+)。將c與噪聲z同時輸入到第一個分支中進行低分辨率圖像生成。通過F0生成隱含特征,并通過T0生成對應的圖像。此時前一個分支的隱含特征將作為下一個分支的輸入來生成更高分辨率的圖像。
生成模型包含了三個生成器和判別器,用于生成高中低三種不同分辨率的圖像。
模型中的判別器需要同時完成三個功能,首先需要正確識別出對應菜品真實圖像,同時也需要能夠區分出真實/錯誤對應的菜品圖像,還需要識別出模型生成的偽造圖像。這樣就能訓練網絡生成出與訓練數據中食材對應菜品圖像更為接近的結果。
驚艷的菜品生成結果
為了檢驗基于注意力的聯合模型對于特征的抽取能力,研究人員首先進行了基于菜譜食材的對應圖像檢索實驗。在實驗中研究人員基于Recipe1M數據集進行訓練,并抽取了其中1989種常見食材,并使用擁有多張菜品圖和多種食材的菜譜。
在實驗中主要利用了中位檢索排序(median retrieval rank, MedR, 越小越好)和top k召回率(recall at top K, R@K,召回越大越好)來對結果進行度量。從下表中可以看到研究人員提出的方法將MedR下降了很多,同時提升了R@K。
下圖展示了菜譜中的食材檢索出的top5對應圖像??梢钥吹綑z索出的圖像都屬于同一類,證明了模型對于原材料的理解和特征抽取具有泛化性。
隨后研究人員針對沙拉、餅干和松餅等三類西方常見的食物進行訓練和合成,并利用感知分數和Frechet感知距離來作為評測指標。下圖可以看到本文提出的方法合成出的食物特別逼真,同時也真實反映了食材的構成。
對于同樣的食材輸出,模型生成的菜品圖像表現也很穩定:
與左上角的真實圖像相比,我們可以看到菜品的種類保持穩定,同時圖像的質量也十分優秀。
最后研究人員還分析了隱含特征空間中的線性插值情況,在兩個不同的菜譜間進行差值可以看到一盤菜漸漸變成了另一盤了!
有了這樣的模型,下次買菜回來不知如何下手的時候,要不要先問問AI這些食材將會變成什么樣的美食呢?說不定它合成出的食物圖像將會啟發你在廚房的想象力呢!enjoy~~~
-
圖像
+關注
關注
2文章
1089瀏覽量
40598 -
AI
+關注
關注
87文章
31834瀏覽量
270598 -
計算機視覺
+關注
關注
8文章
1701瀏覽量
46167
原文標題:從食材到菜品,AI幫你想象出豐盛晚餐該有的模樣
文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論