辰东完美世界有声小说,天下高月小说,遮天

作者 |馬湘楠

單位|東北大學自然語言處理實驗室

來自 | 機器翻譯學堂

引言

智能代理（AI Agents）長期以來都被視為通往人工通用智能（AGI）的一條希望途徑，預期中其能夠通過自主規劃和指令來自動完成相關任務。然而，早期的代理通常是一種編程實體，其通過傳感器感知環境，再通過執行器對環境進行操作，以自主實現用戶的特定目標。該類代理已被大量應用于各種日常任務，如自動駕駛[2][3]、智能機器人[4][5]或AI助手（Siri，Cortana等）。但是，這些代理通常是由傳感器信號或關鍵詞進行觸發，然后在設計好的程序流水線中執行系列操作。它們無法真正的理解以自然語言形式表達的復雜指令，從而無法自主完成絕大多數任務。最近大型語言模型[6][8][8]的發展表明它們能夠一定程度上理解并遵循人類指令，有潛力成為AI agents的核心—“大腦”[9][10]。LLMs使得AI Agents能夠對任務進行自主規劃，而后調用輔助模塊進行執行，從而實現更廣泛的智能化。本文中我們會介紹一些AI Agents的框架構成以及LLMs的基礎知識，而后進一步闡述基于LLMs構建特定AI Agents的一些相關方法技術，以期給讀者帶來一個大體的了解。與本文相關的工作有Wang等人的綜述，感興趣的同學可以自行查閱[11]。

AI Agents and LLMs

(1)AI Agents

AI Agents應該能夠自主化理解用戶的復雜意圖，并依賴歷史記憶信息進行任務規劃，而后調用相應的外部工具自動完成相應的目標任務。根據Weng[1]的定義，AI Agents應該主要由LLMs、任務規劃（Task Planning）模塊、記憶利用（Memory Utilization）模塊和工具調用模塊（Tools Calling）組成。LLMs作為AI Agents的“大腦”，是整個代理運行的中樞組件，其負責配置系統信息，并理解用戶的輸入。任務規劃模塊則是利用LLMs，結合記憶模塊及工具調用的行動反饋，對目標任務進行規劃，將復雜任務分解為多個簡單的子任務，確定任務執行流程。記憶模塊為LLMs提供歷史信息作為指導，以便更好地進行任務規劃工作。行動模塊則將代理的決策轉為具體的動作輸出，并將執行反饋傳回LLMs進行新一輪規劃。LLMs、任務規劃模塊和記憶模塊三者協同工作負責控制工具調用模塊完成行為動作，而工具調用模塊的結果又會再次作用于其他模塊，實現AI Agents的整體運行。接下來，我們將詳細介紹這些模塊。

Large Language Models：語言模型（LM）是基于概率計算，旨在通過根據已經出現的單詞來預測下一個（或缺失的）標記的概率。對于標準的語言模型，給定輸入和參數化的概率模型 p，我們的期望是最大化目標輸出的似然性，如下所示：

其中表示第 i 個標記，表示目標輸出的長度。

Task Planning：任務規劃模塊通常包括兩個子模塊：任務目標分解模塊及目標完善模塊。分解模塊負責將Agents接收到的復雜任務分解為多個較小、可管理的子目標任務，從而能夠完成整體的任務目標。完善模塊則使得代理可以對過去的行動進行自我評價和反思，從錯誤中汲取教訓，并為未來的步驟進行改進，從而提高最終的質量。該模塊的相關任務主要由LLMs完成。

Memory Utilization：記憶模塊主要負責存儲從環境中感知到的相關信息，并利用存儲的記憶來指導LLMs的行動策略，幫助代理積累經驗實現自我演化，其在構建AI代理中扮演著非常重要的角色，使得AI Agents能夠以更統一、合理和有效的方式行事。

Tools Calling：本模塊引入外部工具是指通過集成外部工具和擴展知識源來增強基于LLM的AI Agents的能力。負責將代理的決策轉化為具體的執行結果，其與環境直接互動，決定了Agents完成任務的能力。如果將LLMs比喻成AI Agents的智能大腦，那么Tools調用則是AI Agents這個系統的手和腳。

圖1 LLM驅動的自主代理系統概覽[1]

(2)large language models

Transformer架構的出現，使得語言模型進入了預訓練階段。通過在大量無標注文本上進行預訓練，使得語言模型在下游任務上展現出了非常強大的通用性能。根據架構選擇，預訓練模型有三個主要分支：encoder-only模型[12]、decoder-only模型[13]和encoder-decoder模型[14]。

隨著預訓練模型規模的不斷擴大，研究人員發現增加LMs模型大小會持續改善各種下游任務的性能，并將其稱為語言模型的縮放定律（scaling-laws）。同時，人們也發現模型規模增大的同時，也會誘發出大語言模型（LLMs）的“涌現”能力：某些在大型模型中具備，但在較小模型中并不存在的能力。這些涌現出的能力使LLMs與早期的預訓練模型得到了區分。隨著ChatGPT模型的公布，其強大的任務理解能力以及出色的對話能力引起了大家的廣泛關注，也預示著語言模型的研究正式進入了大語言模型（large language models）的時代。

在ChatGPT[15]發布之后不久，openAI進一步公布了其新一代的大語言模型—GPT4[6]。GPT4不僅具有更強大的語義理解能力和對話能力，還能夠處理多模態信息，并且具備了外部API調用的能力，使得其能夠開始與外界進行交互，為AI Agents及AGI的實現提供了可能性。直到目前為止，GPT4仍然是最為強大的大語言模型，感興趣的同學可以通過openAI提供的官方API進行嘗試[16]。除openAI外，也有許多研究團隊和組織開發并公布了自己的基礎大語言模型，比如PaLM2[17]、LLama[7]、GLM[18]、Baichuan-13B[19]等。

LLaMA作為少數開源大語言模型的一種，引起了來自研究界和工業界的廣泛關注。由于LLaMA模型在各種開放基準測試中的表現出色，其成為了最受歡迎的開放語言模型。比如，有許多研究人員通過指令調整或持續預訓練來擴展LLaMA模型。特別是在指令微調方面，LLaMA已經成為開發定制或專業化模型的主要基礎模型之一[20][22]。也有部分工作為了在非英語語言中有效地適應LLaMA模型（主要在英語語料庫上訓練），使用目標語言數據擴展了原始詞匯表并進行了微調[21]。此外，LLama還在多模態領域得到了應用[23][24]。最近發布的最新Llama2模型，由于其更為強大的性能表現，又引起了一股新的開源大語言模型浪潮。

截止到目前，已有工作從多個角度對LLMs的發展現狀進行了廣泛討論和調查[25]，并提供了非常全面的總結概括，涵蓋了模型設計、培訓方法、在應用中的利用以及評估技術等方面，感興趣的同學可以自行查閱。

Fine-tuning：雖然大語言模型通過大量的預訓練文本具備了非常強的通用能力，但是其對于一些特定的領域知識掌握不足。為了增強LLMs的特定能力，與人類需求對齊，往往需要通過fine-tune的方式對模型進行微調訓練。然而，由于LLMs巨大的參數量，對其所有參數進行微調將會非常昂貴。因此，高效的微調方法是非常有必要的，主流方法有：Adapter[26]、Prompt Tuning[27]、Low-Rank Adaptation (LoRA)[28]等。LoRA由于其可插拔的便利特性，成為了最常用的方法。

圖2 不同參數高效微調方法的示意圖[25]

Prompt Engineering：LLMs通常以自然語言為接口與人類進行交互，而這部分自然語言描述則被成為prompt。由于LLMs對prompt非常敏感，prompt細微的改動很可能就會帶來差別很大的結果，因此prompt工程對于LLMs的使用非常重要[29][30]。通常來說，一個好的prompt應該是指令明確、需求清晰，操作具體、并且內容詳盡的。推薦同學觀看吳恩達教授的prompt課程進行學習[31]。此外，LLMs可以通過In-context learning的方式進一步提高下游任務上的性能，是一種非常有效的學習方法[13]。

Task Planning

任務規劃模塊主要是依托于LLMs強大的任務處理能力，將復雜任務分解為多個簡單的子任務，然后逐個解決每個子任務。同時，在任務的規劃-執行過程中引入一系列的反饋，對每個任務的目標進行完善。該模塊通過LLM賦予了AI Agents解決復雜任務的能力。

（1）Task Decomposition

任務分解模塊主要是通過prompt的使用，由LLMs來為復雜任務生成一系列的規劃序列，從而提高AI Agents執行復雜任務的能力。Chain of Thought (CoT) [32]提出了一種簡單有效的方法，通過在prompt中提供少量逐步解決復雜推理問題的示例，極大提升了LLMs解決復雜任務的能力。Zero-shot-CoT[33]方法則是利用啟發式的prompt：“Let’s think step by step.”，使得LLM在零樣本的情況下自主生成復雜問題的推理過程，并保證了一定的性能穩定。Least-to-Most CoT[34]則是初步嘗試了任務分解，將原問題分解為一系列簡單的子問題，并串行化解決這些相關聯的子問題。Decomposed Prompting[35]方法同樣采用了類似的思路。

以上的CoT方法通常是以單一線性的方式進行任務分解，然而復雜任務的多個子任務很可能存在依賴并且分解結果不唯一?？紤]到每個復雜問題會有多種推理方式來得到最終答案，Self-consistent CoT (CoT-SC)[37]使用CoT生成多個推理路徑和答案，選擇出現最多次數的答案作為最終答案輸出。Tree of Thoughts (ToT)[38]則是以樹狀的形式進行任務分解，而后通過廣度優先和深度優先搜索等搜索算法進行回溯，以得到一個較為可行的全局規劃。這些方法提高了LLM在復雜推理任務上的性能。此外，也有部分工作在子任務生成過程中引入額外的prompt對路徑的進行選擇，在受約束的情況下進行任務規劃[39][40]。

圖3 主流的CoT方法示意圖[38]

然而，自然語言通常是復雜多義的，基于自然語言的任務規劃無法保證準確執行。雖然有些方法通過語義映射將生成的規劃限制到更小的結果空間中[41]，仍可能會導致規劃正確但執行失敗的情況。為了生成更便于驗證的任務規劃，部分工作選擇以可執行代碼為生成形式。Faithful CoT[43]、LLM+P[44]等方法使用形式化的規劃領域定義語言（PDDL）作為目標輸出。PAL[45]和PROGPROMPT[46]則是利用LLMs直接生成Python格式的任務規劃。然后由Agents根據生成的可執行代碼來解決問題。

（2）Refinement

為了進一步完善目標任務，AI Agents需要學會接受外部反饋，從而提高其整體的任務規劃能力。最常見的反饋來自于Agent自身。ReAct[47]在任務規劃的過程中引入了行動反饋，其明確定義推理和行動是順序執行的，如果某個行動的沒有獲得正確反饋時，將對規劃重新進行推理，直到獲得正確答案。RAP[48]則是通過評估每個候選計劃導致任務成功的可能性進行選擇。當前環境狀態信息同樣可以幫助改善任務規劃結果[49]。除Agent環境外，反饋也可以來自于人類[50][51]。

此外，為了處理長期任務，可以結合記憶模塊將反饋存入長期記憶庫。例如，Reflexion [52]將反饋存儲到內存中以便檢索。此外，部分方法引入技能庫，用于存儲正確執行的任務規劃，同時這些規劃可以被重用或合成為更復雜的任務計劃[53]?？傊ㄟ^反饋信息的使用，特別是行動執行結果的反饋，極大增強了任務規劃的成功概率。

Memory Utilization

記憶模塊通常負責存儲Agents運行中的歷史信息及額外的外部知識，為LLMs的任務規劃提供幫助，提高整個Agents環境運行的準確性。根據類型通?？梢苑譃槎唐谟洃浐烷L期記憶。其中短期記憶可以通過prompt注入或調用臨時歷史信息實現。而長期記憶則通常需要使用外部向量數據庫進行存儲和快速檢索。因此，可以通過記憶讀取及存儲的工程化實現，達到利用短期或長期記憶來改進LLMs和AI Agents的相關能力。

通常來說，長期記憶保存著Agent對整個環境的認知與總結，而短期記憶則是有關于某個事件的感知與體會。比如，Generative Agents[54]采用雙層的內存結構來分別存儲Agent的短期記憶與長期記憶。而AgentSims[55]則是把Agent的短期記憶存儲到LLMs的歷史對話中。當然，有些工作不會對短期記憶和長期記憶加以區分，而是使用統一的方式進行管理。比如Atlas 基于雙向編碼器模型來檢索相關的文檔記憶[56]。增強型LLM 則使用統一的外部媒介來存儲其記憶，并使用prompt的方式進行訪問[57]。通過記憶的存儲、讀取可以實現Agent的自我反思。

而記憶的存儲方式也多種多樣。自然語言的形式可以實現方便快捷的存儲，同時保證記憶的語義豐富性[52]。Embedding的使用則可以大幅度提高記憶的檢索和匹配效率，雖然進行存儲的時候會花費額外的編碼時間[58]。常見的向量數據庫有weaviate[59]和milvus[60]。此外結構化列表[61]和傳統數據庫[62]也可作為記憶存儲的載體。

Tools Calling

外部工具調用模塊則是通過使用外部工具完成規劃中的任務。作為AI Agents的手和腳，其直接與真實世界發生交互，并為LLMs提供重要的執行反饋信息。通過將可用工具封裝為API調用，Agent可以具備訪問和使用各種模型、數據庫、Web應用程序和其他外部工具的能力。

（1）External Tools

WebGPT[63]可以在使用ChatGPT時將從網站檢索到的相關結果合并到提示中，從而實現更準確和及時的響應。MRKL[64]則是包含了一組“專家”模塊，通過LLM充當路由器，將查詢路由到最適合的專家模塊（這些模塊可以是例如深度學習模型、數學計算器、貨幣轉換器或天氣查詢API），以增強LLMs在若干特定任務上的性能。ChemCrow[65]則是一個化學領域的特定Agent，旨在借助十七種專家設計的工具完成有機合成、藥物發現和材料設計等領域的任務。此外，Toolformer[66]以自監督的方式微調語言模型，在不失模型的通用性下，讓模型學會自動調用一系列API，包括計算器、問答系統、搜索引擎、翻譯系統和日歷等，實質性改進了模型在下游任務上的零樣本性能。

此外，針對大量的模型API，HuggingGPT[67]則是利用LLM將Hugging Face社區中的多樣化AI模型連接起來，以解決復雜的AI任務。HuggingGPT通過訓練LLM進行任務分解，從而生成一系列的代碼片段，然后使用這些片段從外部社區中調用所需的模型來完成任務。Gorilla[68]則是收集了三個主要的神經網絡模型網站：Torch Hub、TensorFlow Hub 和 HuggingFace的API調用文檔，并進行了數據清洗及增強，在7B規模的模型微調后能夠有效地實現適當的API調用。OpenAI在ChatGPT中同樣支持了插件的使用，這些插件可以為LLMs提供超越語言建模的更廣泛能力。

（2）Evaluation

API-Bank[69]是一個用于評估工具增強型LLM性能的測試集。它包含53個常用的API工具、完整的工具增強型LLM工作流程以及264個涉及568個API調用的帶注釋的對話。API的選擇非常多樣化，包括搜索引擎、計算器、日歷查詢、智能家居控制、日程管理、健康數據管理、帳戶驗證工作流程等。由于API數量眾多，LLM首先可以訪問API搜索引擎來查找要調用的正確API，然后使用相應的文檔來進行調用。ToolBench[70]收集了一個包含上萬種API調用的數據集，可用于LLMs的微調工作。同時，其提出了一個通用框架ToolLLM用于數據構建、模型訓練以及一個自動評估器ToolEval用于評估模型的API調用能力。

開源框架

隨著人們對AI Agents的逐漸重視，部分項目致力于創建自主通用AI代理框架，以期開發人員能夠快速且可靠地構建、管理和運行AI Agents。LangChain [71]是一個開源框架，旨在能夠自動化完成編碼、測試、調試和文檔生成任務。其通過prompt保證多個Agent之間的協作工作，實現了高效的軟件開發。AutoGPT[72]則是一個完全自動化的Agent框架，可以對目標任務實現自動分解及動作執行，返回最終結果，但是可能會由于任務規劃錯誤導致陷入死機狀態。BMTools[73]則是一個基于語言模型的開源可擴展工具學習平臺。研究團隊將各種各樣的工具（例如文生圖模型、搜索引擎、股票查詢等）的調用流程都統一到一個框架上，使整個工具調用流程標準化、自動化。使得開發者可以通過 BMTools給所用的模型（如ChatGPT、GPT4）調用多種多樣的工具接口，實現特定的功能。

問題與挑戰：

(1)LLM的魯棒性

LLM的魯棒性對于確保AI代理的整體穩定性至關重要。作為AI代理的大腦，LLM以自然語言為接口，并通過prompt保證內部模塊通信并與外部世界進行交互，以確保整個系統的正確運行。然而，LLM對提示非常敏感，一些研究表明，即使對prompt進行微小的更改，便可能產生完全不同的結果。特別是在AI agent的框架下，這種敏感性尤為顯著，因為一個模塊的提示變化可以直接影響其他模塊的性能表現，甚至導致整個代理的崩潰。此外，不同LLMs的有效提示是不同的，這使得AI代理和LLM之間具有高度的耦合性。更換LLM時，便需要手動重新編寫大量prompt。因此，高效生成各種LLM的穩定提示框架是這個領域的重要挑戰。此外，現有的LLM經常存在幻覺問題，會引起性能下降甚至系統的崩潰，對實際部署造成潛在風險[74]。識別幻覺并在LLM的使用中避免它們也至關重要。

(2)垂直領域表現不佳

盡管LLM已經學會生成連貫的文本，并在一般領域取得了令人稱贊的結果，但在處理專業領域或任務時，它們的生成能力可能會受到限制。領域知識對于模型的專業化非常重要，然而將這種專業知識注入LLM并不容易。由于神經網絡訓練中的災難性遺忘問題，當LLM被用于特定領域時，可能會損害其在別的領域上的性能。比如OpenAI指出，在使LLM與人類的價值觀保持一致的過程中可能需要支付“對齊稅”（即上下文學習能力的損失）。因此，構建特定領域的AI代理的一個關鍵挑戰是如何增強LLM的專業化能力。

（3）安全性

盡管LLM具有出色的能力，但它們也面臨著更大的安全挑戰。LLM可能生成有害、偏見或有毒的文本，可能會被惡意系統濫用[75]。雖然基于人類反饋的強化學習方法（RLHF）已經可以將LLM與人類需求進行一定程度的對齊，但仍然可以通過一些提示注入規避現有的安全措施。總之，由于AI代理具有與外部環境互動的能力，可以自主制定規劃并調用外部工具，因此安全性應始終是其開發的主要關注點。

總結

本文針對基于LLMs的AI Agents的構建進行了簡要的綜述。首先描述了AI Agents的基本框架構成以及LLMs的基礎知識。同時對于AI Agents的關鍵模塊：Task Planning、Memory Utilization、Tools Calling的部分相關工作分別進行了介紹，希望能為對該領域感興趣的讀者帶來一些幫助。

審核編輯：湯梓紅

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

傳感器

傳感器

+關注

關注
2560

文章
52147

瀏覽量
761349
機器人

機器人

+關注

關注
212

文章
29240

瀏覽量
210782
AI

AI

+關注

關注
87

文章
33442

瀏覽量
273999
語言模型

語言模型

+關注

關注
0

文章
556

瀏覽量
10581

原文標題：從大語言模型到智能Agents

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

ARM架構基礎知識小結

ARM架構的芯片和用單片機將沒有區別。ARM架構之所以更復雜，當然是為了跑更快以及更好地支持片上系統，所以在某種程度上來說對片上系統不是很了解的話那對于ARM架構的理解也不會那么深。A

發表于 05-12 17:06

ARM架構基礎知識小結

從單片機轉到ARM ―― ARM架構基礎知識小結

發表于 12-29 06:16

【HarmonyOS基礎知識】HarmonyOS系統架構

這個視頻帶大家揭秘HarmonyOS基礎知識之HarmonyOS系統架構，一起來看看？

發表于 01-19 18:32

Cortex-A7 MPCore架構的基礎知識點匯總，不看肯定后悔

Cortex-A7 MPCore架構的基礎知識點匯總，不看肯定后悔

發表于 11-30 06:45

ARM架構基礎知識點匯總

之所以更復雜，當然是為了跑更快以及更好地支持片上系統，所以在某種程度上來說對片上系統不是很了解的話那對于ARM架構的理解也不會那么深。ARM架構基礎知識小結通用寄存器R13通常被用作棧

發表于 12-13 06:26

串行通信基礎知識與UART驅動構件使用方法

慕課蘇州大學.嵌入式開發及應用.第二章.入門與軟件框架.串行通信基礎知識與UART驅動構件使用方法0 目錄2 入門與軟件框架2.1 串行通信基礎知識與UART驅動構件使用方法2.1.1

發表于 12-20 06:21

整個SDK的框架是基本構成是怎么樣的？

初次接觸RISC-V，也購買了一個開發板，下載了官方的SDK,不過想詳細了解一下SDK的架構，有沒有人可以幫助我啊。當我們拿到一個芯片的開發板時，怎么樣去解讀SDK，那些軟件是系統必備的，那些軟件是可以自己添加的，整個SDK的框架是基本

發表于 08-16 08:29

RF和天線的基礎知識以及實際的天線設計原理

RF和天線的基礎知識以及實際的天線設計原理:ISM頻帶及小范圍設備天線基礎：第四章在此將介紹RF和天線的基礎知識以及實際的天線設計原理。通道損失在通信鏈路中，用于

發表于 09-23 19:32 ?106次下載

電源管理基礎知識電源管理基礎知識電源管理基礎知識

電源管理基礎知識電源管理基礎知識電源管理基礎知識

發表于 09-15 14:36 ?76次下載

差分放大器以及相關設計軟件的基礎知識

差分放大器以及相關設計軟件的基礎知識

發表于 09-18 16:28 ?5次下載

架構模式的基礎知識

????作為軟件工程師，為什么至少要學習基本的架構模式？ ????我相信有很多人回答了這個問題，但我會給你一些考慮的理由。 ????首先，如果您了解架構模式的基礎知識，那么您就更容易遵循架構

發表于 06-13 16:13 ?845次閱讀

大模型心高氣傲，沒有AI Agents生死難料

AI Agents會消除人與AI系統的大量繁瑣交互已經板上釘釘，正在發生

發表于 09-06 20:56 ?812次閱讀

NeurIPS 2023 | AI Agents先行者CAMEL：首個基于大模型的多智能體框架

AI Agents 是當下大模型領域備受關注的話題，用戶可以引入多個扮演不同角色的 LLM Agents 參與到實際的任務中，Agents 之間會進行競爭和協作等多種形式的動態交互，進

發表于 11-26 21:25 ?1393次閱讀

AI推理框架軟件ONNX Runtime正式支持龍架構

近日，知名AI推理框架開源社區ONNX Runtime正式發布支持龍架構的版本1.17.0。

發表于 03-12 12:23 ?757次閱讀

新思科技預測2025年AI Agents的發展趨勢

人工智能發展迅速，初期僅靠預設規則執行簡單任務，功能有限。如今，AI已進化為尖端Agents，能精準理解復雜語言，創作文學與藝術作品，并具備持續學習能力，從海量數據中吸取知識，靈活調整行為。

發表于 01-06 09:48 ?425次閱讀