我欲封天txt下载,欢乐颂小说在线阅读,完美世界有声小说

有理論基礎，我們就可以進行深度優化了。

為什么 transformer 性能這么好？它給眾多大語言模型帶來的上下文學習 (In-Context Learning) 能力是從何而來？在人工智能領域里，transformer 已成為深度學習中的主導模型，但人們對于它卓越性能的理論基礎卻一直研究不足。最近，來自 Google AI、蘇黎世聯邦理工學院、Google DeepMind 研究人員的新研究嘗試為我們揭開謎底。在新研究中，他們對 transformer 進行了逆向工程，尋找到了一些優化方法。論文《Uncovering mesa-optimization algorithms in Transformers》：

論文鏈接：https://arxiv.org/abs/2309.05858 作者證明，最小化通用自回歸損失會產生在 Transformer 的前向傳遞中運行的基于輔助梯度的優化算法。這種現象最近被稱為「mesa 優化（mesa-optimization）」。此外，研究人員發現所得的 mesa 優化算法表現出上下文中的小樣本學習能力，與模型規模無關。因此，新的結果對此前大語言模型中出現的小樣本學習的原理進行了補充。研究人員認為：Transformers 的成功基于其在前向傳遞中實現 mesa 優化算法的架構偏差：(i) 定義內部學習目標，以及 (ii) 對其進行優化。

圖 1：新假設的說明：優化自回歸 Transformer fθ 的權重 θ 會產生在模型前向傳播中實現的 mesa 優化算法。作為輸入序列 s_1, . 。。， s_t 被處理到時間步 t，Transformer (i) 創建一個由輸入 - 目標關聯對組成的內部訓練集，(ii) 通過結果數據集定義內部目標函數，用于衡量內部模型的性能使用權重 W，(iii) 優化該目標并使用學習的模型生成未來的預測。該研究的貢獻包括：

概括了 von Oswald 等人的理論，并展示了從理論上，Transformers 是如何通過使用基于梯度的方法優化內部構建的目標來自回歸預測序列下一個元素的。
通過實驗對在簡單序列建模任務上訓練的 Transformer 進行了逆向工程，并發現強有力的證據表明它們的前向傳遞實現了兩步算法：(i) 早期自注意力層通過分組和復制標記構建內部訓練數據集，因此隱式地構建內部訓練數據集。定義內部目標函數，(ii) 更深層次優化這些目標以生成預測。
與 LLM 類似，實驗表明簡單的自回歸訓練模型也可以成為上下文學習者，而即時調整對于改善 LLM 的上下文學習至關重要，也可以提高特定環境中的表現。
受發現注意力層試圖隱式優化內部目標函數的啟發，作者引入了 mesa 層，這是一種新型注意力層，可以有效地解決最小二乘優化問題，而不是僅采取單個梯度步驟來實現最優。實驗證明單個 mesa 層在簡單的順序任務上優于深度線性和 softmax 自注意力 Transformer，同時提供更多的可解釋性。

在初步的語言建模實驗后發現，用 mesa 層替換標準的自注意力層獲得了有希望的結果，證明了該層具有強大的上下文學習能力。

基于最近人們的工作表明，經過明確訓練來解決上下文中的小樣本任務的 transformer 可以實現梯度下降（GD）算法。在這里，作者展示了這些結果可以推廣到自回歸序列建模 —— 這是訓練 LLM 的典型方法。首先分析在簡單線性動力學上訓練的 transformer，其中每個序列由不同的 W* 生成 - 以防止跨序列記憶。在這個簡單的設置中，作者展示了 transformer 創建 mesa 數據集，然后使用預處理的 GD 優化 mesa 目標。

該研究在聚合相鄰序列元素的 token 結構上訓練深度 transformer。有趣的是，這種簡單的預處理會產生極其稀疏的權重矩陣（只有不到 1% 的權重非零），從而產生逆向工程算法。

對于單層線性自注意力，權重對應一個 GD 步驟。對于深度 transformer，可解釋性就變得困難。該研究依靠線性探測并檢查隱藏激活是否可以預測自回歸目標或預處理輸入。有趣的是，兩種探測方法的可預測性都會隨著網絡深度的增加而逐漸提高。這一發現表明模型中隱藏著預處理的 GD。

圖 2：對經過訓練的線性自注意力層進行逆向工程。 該研究發現，在構建中使用所有自由度時，可以完美地擬合訓練層，不僅包括學習的學習率 η，還包括一組學習的初始權重 W_0。重要的是，如圖 2 所示，學得的 one-step 算法的性能仍然遠遠優于單個 mesa 層。我們可以注意到，在簡單的權重設置下，很容易通過基礎優化發現，該層可以最優地解決此處研究的任務。該結果證明了硬編碼歸納偏差有利于 mesa 優化的優勢。憑借對多層案例的理論見解，先分析深度線性和 softmax 僅注意 Transformer。作者根據 4 通道結構設置輸入格式，

，這對應于選擇 W_0 = 0。

與單層模型一樣，作者在訓練模型的權重中看到了清晰的結構。作為第一個逆向工程分析，該研究利用這個結構并構建一個算法（RevAlg-d，其中 d 表示層數），每個層頭包含 16 個參數（而不是 3200 個）。作者發現這種壓縮但復雜的表達式可以描述經過訓練的模型。特別是，它允許以幾乎無損的方式在實際 Transformer 和 RevAlg-d 權重之間進行插值。雖然 RevAlg-d 表達式解釋了具有少量自由參數的經過訓練的多層 Transformer，但很難將其解釋為 mesa 優化算法。因此，作者采用線性回歸探測分析（Alain & Bengio，2017；Akyürek et al.，2023）來尋找假設的 mesa 優化算法的特征。在圖 3 所示的深度線性自注意力 Transformer 上，我們可以看到兩個探針都可以線性解碼，解碼性能隨著序列長度和網絡深度的增加而增加。因此，基礎優化發現了一種混合算法，該算法在原始 mesa-objective Lt (W) 的基礎上逐層下降，同時改進 mesa 優化問題的條件數。這導致 mesa-objective Lt (W) 快速下降。此外可以看到性能隨著深度的增加而顯著提高。因此可以認為自回歸 mesa-objective Lt (W) 的快速下降是通過對更好的預處理數據進行逐步（跨層）mesa 優化來實現的。

圖 3：對構建的 token 輸入進行逆向工程的多層 Transformer 訓練。 這表明，如果 transformer 在構建的 token 上進行訓練，它就會通過 mesa 優化進行預測。有趣的是，當直接給出序列元素時，transformer 會自行通過對元素進行分組來構造 token，研究團隊將其稱為「創建 mesa 數據集」。

結論該研究表明，當在標準自回歸目標下針對序列預測任務進行訓練時，Transformer 模型能夠開發基于梯度的推理算法。因此，在多任務、元學習設置下獲得的最新結果也可以轉化到傳統的自監督 LLM 訓練設置中。此外，該研究還發現學得的自回歸推理算法可以在無需重新訓練的情況下重新調整用途，以解決有監督的上下文學習任務，從而在單個統一框架內解釋結果。

那么，這些與上下文學習（in-context learning）有什么關系呢？該研究認為：在自回歸序列任務上訓練 transformer 后，它實現了適當的 mesa 優化，因此可以進行少樣本（few-shot）上下文學習，而無需任何微調。

該研究假設 LLM 也存在 mesa 優化，從而提高了其上下文學習能力。有趣的是，該研究還觀察到，為 LLM 有效調整 prompt 也可以帶來上下文學習能力的實質性改進。

感興趣的讀者可以閱讀論文原文，了解更多研究內容。 參考內容：https://www.reddit.com/r/MachineLearning/comments/16jc2su/r_uncovering_mesaoptimization_algorithms_in/https://twitter.com/oswaldjoh/status/1701873029100241241

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1804

文章
48449

瀏覽量
245058
深度學習

深度學習

+關注

關注
73

文章
5547

瀏覽量
122315
DeepMind

DeepMind

+關注

關注
0

文章
131

瀏覽量
11235
Transformer

Transformer

+關注

關注
0

文章
148

瀏覽量
6327
大模型

大模型

+關注

關注
2

文章
2941

瀏覽量
3685

原文標題：Transformer的上下文學習能力是哪來的？

文章出處：【微信號：tyutcsplab，微信公眾號：智能感知與物聯網技術研究所】歡迎添加關注！文章轉載請注明出處。

DeepSeek推出NSA機制，加速長上下文訓練與推理

的特性，專為超快速的長上下文訓練和推理而設計。 NSA通過針對現代硬件的優化設計，顯著加快了推理速度，并大幅度降低了預訓練成本，同時保持了卓越的性能表現。這一機制在確保效率的同時，并未犧牲模型的準確性或功能。在廣泛的基準測試、涉及長上

發表于 02-19 14:01 ?523次閱讀

如何使用MATLAB構建Transformer模型

Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設計初衷是為了解決自然語言處理（Nature

發表于 02-06 10:21 ?2774次閱讀

transformer專用ASIC芯片Sohu說明

2022年，我們打賭說transformer會統治世界。我們花了兩年時間打造Sohu，這是世界上第一個用于transformer（ChatGPT中的“T”）的專用芯片。將transformer

發表于 01-06 09:13 ?861次閱讀

《具身智能機器人系統》第7-9章閱讀心得之具身智能機器人與大模型

方法元學習+GPICL方法零樣本能力提供高性能，無需任務特定微調即可推廣到新任務。零樣本性能較差，專注于通過上下文學習適應任務。可

發表于 12-24 15:03

Transformer模型的具體應用

如果想在 AI 領域引領一輪新浪潮，就需要使用到 Transformer。

發表于 11-20 09:28 ?1263次閱讀

Transformer模型能夠做什么

盡管名為 Transformer，但它們不是電視銀幕上的變形金剛，也不是電線桿上垃圾桶大小的變壓器。

發表于 11-20 09:27 ?765次閱讀

SystemView上下文統計窗口識別阻塞原因

SystemView工具可以記錄嵌入式系統的運行時行為，實現可視化的深入分析。在新發布的v3.54版本中，增加了一項新功能：上下文統計窗口，提供了對任務運行時統計信息的深入分析，使用戶能夠徹底檢查每個任務，幫助開發人員識別阻塞原因。

發表于 08-20 11:31 ?595次閱讀

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

的信息，提供更全面的上下文理解。這使得模型能夠更準確地理解復雜問題中的多個層面和隱含意義。 2. 語義分析模型通過訓練學習到語言的語義特征，能夠識別文本中的命名實體、句法結構和語義關系等信息。這些

發表于 08-02 11:03

Transformer能代替圖神經網絡嗎

Transformer作為一種在處理序列數據方面表現出色的深度學習模型，自其提出以來，已經在自然語言處理（NLP）、時間序列分析等領域取得了顯著的成果。然而，關于Transformer是否能完全代替圖神經網絡（GNN）的問題，需

發表于 07-12 14:07 ?742次閱讀

Transformer語言模型簡介與實現過程

在自然語言處理（NLP）領域，Transformer模型以其卓越的性能和廣泛的應用前景，成為了近年來最引人注目的技術之一。Transformer模型由谷歌在2017年提出，并首次應用于神經機器翻譯

發表于 07-10 11:48 ?2681次閱讀

使用PyTorch搭建Transformer模型

Transformer模型自其問世以來，在自然語言處理（NLP）領域取得了巨大的成功，并成為了許多先進模型（如BERT、GPT等）的基礎。本文將深入解讀如何使用PyTorch框架搭建Transformer模型，包括模型的結構、訓練過程、關鍵組件以及實現細節。

發表于 07-02 11:41 ?2302次閱讀

鴻蒙Ability Kit（程序框架服務）【應用上下文Context】

[Context]是應用中對象的上下文，其提供了應用的一些基礎信息，例如resourceManager（資源管理）、applicationInfo（當前應用信息）、dir（應用文件路徑）、area

發表于 06-06 09:22 ?746次閱讀

編寫一個任務調度程序，在上下文切換后遇到了一些問題求解

大家好，我正在編寫一個任務調度程序，在上下文切換后遇到了一些問題。為下一個任務恢復上下文后： __builtin_tricore_mtcr_by_name(\"pcxi\"

發表于 05-22 07:50

微信大模型擴容并開源，推出首個中英雙語文生圖模型，參數規模達15億

基于Diffusion Transformer的混元DiT是一種文本到圖像生成模塊，具備中英細粒度理解能力，能與用戶進行多輪對話，根據上下文生成并完善圖像。

發表于 05-14 17:10 ?1026次閱讀

【大語言模型：原理與工程實踐】大語言模型的基礎技術

Transformer有效避免了CNN中的梯度消失和梯度爆炸問題，同時提高了處理長文本序列的效率。此外，模型編碼器可以運用更多層，以捕獲輸入序列中元素間的深層關系，并學習更全面的上下文向量表示。預訓練語言模型

發表于 05-05 12:17