完美世界txt下载,好看的玄幻小说,将夜猫腻小说

LLM 的能力還可以發揮到機器學習的更多子領域。

當前，大型語言模型（LLM）已經掀起自然語言處理（NLP）領域的變革浪潮。我們看到 LLM 具備強大的涌現能力，在復雜的語言理解任務、生成任務乃至推理任務上都表現優異。這啟發人們進一步探索 LLM 在機器學習另一子領域 —— 計算機視覺（CV）方面的潛力。 LLM 的一項卓越才能是它們具備上下文學習的能力。上下文學習不會更新 LLM 的任何參數，卻在各種 NLP 任務中卻展現出了令人驚艷的成果。那么，GPT 能否通過上下文學習解決視覺任務呢？最近，來自谷歌和卡內基梅隆大學（CMU）的研究者聯合發表的一篇論文表明：只要我們能夠將圖像（或其他非語言模態）轉化為 LLM 能夠理解的語言，這似乎是可行的。

SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs 代碼：https://github.com/google-research/magvit/ 論文地址：https://arxiv.org/abs/2306.17842 這篇論文揭示了 PaLM 或 GPT 在通過上下文學習解決視覺任務方面的能力，并提出了新方法 SPAE（Semantic Pyramid AutoEncoder）。這種新方法使得 LLM 能夠執行圖像生成任務，而無需進行任何參數更新。這也是使用上下文學習使得 LLM 生成圖像內容的首個成功方法。我們先來看一下通過上下文學習，LLM 在生成圖像內容方面的實驗效果。例如，在給定上下文中，通過提供 50 張手寫圖像，論文要求 PaLM 2 回答需要生成數字圖像作為輸出的復雜查詢：

還能在有圖像上下文輸入的情況下生成逼真的現實圖像：

除了生成圖像，通過上下文學習，PaLM 2 還能進行圖像描述：

還有與圖像相關問題的視覺問答：

甚至可以去噪生成視頻：

方法概述實際上，將圖像轉化為 LLM 能夠理解的語言，是在視覺 Transformer（ViT）論文中就已經研究過的問題。在 Google 和 CMU 的這篇論文中，他們將其提升到了一個新的層次 —— 使用實際的單詞來表示圖像。這種方法就像建造一個充滿文字的塔樓，捕捉圖像的語義和細節。這種充滿文字的表示方法讓圖像描述可以輕松生成，并讓 LLM 可以回答與圖像相關的問題，甚至可以重構圖像像素。

具體來說，該研究提出使用經過訓練的編碼器和 CLIP 模型將圖像轉換為一個 token 空間；然后利用 LLM 生成合適的詞法 token；最后使用訓練有素的解碼器將這些 token 轉換回像素空間。這個巧妙的過程將圖像轉換為 LLM 可以理解的語言，使我們能夠利用 LLM 在視覺任務中的生成能力。