辰东,有声小说下载,完结小说排行榜

【導讀】工具學習的開源時代來了！

人類具有創造和利用工具的能力，使得我們可以突破身體的限制，探索更廣闊的世界。

人工智能基礎模型也類似，如果僅靠訓練階段得到的權重，使用場景就會非常受限，而最近提出的工具學習（tool learning），將特定領域的專用工具與大規模基礎模型相結合，可以實現更高的效率、性能。

不過目前工具學習的相關研究還不夠深入，也缺乏相關的開源數據和代碼。

最近，清華大學自然語言處理實驗室等支持的開源社區OpenBMB （Open Lab for Big Model Base）發布了ToolBench項目，可以幫助開發者構建開源、大規模、高質量的指令調優數據，促進構建具有通用工具使用能力的大型語言模型。

倉庫鏈接：https://github.com/OpenBMB/ToolBench

ToolBench倉庫中提供了相關數據集、訓練和評估腳本，以及在ToolBench上微調的功能模型ToolLLaMA，具體特點為：

1. 支持單工具和多工具方案

其中單工具設置遵循LangChain提示風格，多工具設置遵循AutoGPT的提示風格。

2. 模型回復不僅包括最終答案，還包含模型的思維鏈過程、工具執行和工具執行結果

3. 支持真實世界級別的復雜性，支持多步工具調用

4. 豐富的API，可用于現實世界中的場景，如天氣信息、搜索、股票更新和PowerPoint自動化

5. 所有的數據都是由OpenAI API自動生成并由開發團隊進行過濾，數據的創建過程很容易擴展

不過需要注意的是，目前發布的數據還不是最終版本，研究人員仍然在對數據進行后處理來提高數據質量，并增加真實世界工具的覆蓋范圍。

ToolBench

ToolBench的總體思路是基于BMTools，在有監督數據中訓練大型語言模型。

倉庫中包含31.2萬次真實API調用得到的9800條數據，涵蓋單工具場景和多工具場景，下面是單工具的統計信息。

其中每行數據都是一個json dict，包含數據創建的提示模板、工具使用的人工指令（查詢）、中間思維/工具執行循環和最終答案。

模型實驗

機器評估：研究人員對每個工具隨機抽取100個鏈步（chain steps）來構建機器評估測試平臺，平均27個最終步驟和73個中間工具調用步驟，其中最終步驟的評估使用Rouge-L指標，中間步驟的評估使用ExactMatch指標進行評估。

人工評估：在天氣、地圖、股票、翻譯、化學和WolframAlpha工具中隨機抽取10個query，然后評估工具調用過程的通過率、最終答案以及和ChatGPT最終答案的比較。

ChatGPT評估：通過ChatGPT對LLaMA和ChatGPT的答案和工具使用鏈進行自動評估。

評估結果如下（分數越高越好），可以看到ToolLLaMA在不同場景下與ChatGPT的性能相同或更好。

工具學習

在清華大學、人民大學、北京郵電大學等個國內外知名高校和大學聯合發布的一篇論文中，對工具學習進行了系統的研究，介紹了工具學習的背景，包括認知起源、基礎模型的范式轉變，以及工具和模型的互補作用。

論文鏈接：https://arxiv.org/pdf/2304.08354.pdf

文中還回顧了現有的工具學習研究，包括工具增強型和工具導向型學習，并制定了一個通用的工具學習框架：從理解用戶指令開始，模型應該學會把一個復雜的任務分解成幾個子任務，通過推理動態地調整計劃，并通過選擇合適的工具有效地征服每個子任務。

文中還討論了如何訓練模型以提高工具使用能力并促進工具學習的普及。

考慮到之前的工作中缺乏系統的工具學習評估，研究人員用17種有代表性的工具進行了實驗，并展示了當前基礎模型在熟練利用工具方面的潛力。

論文最后討論了幾個需要進一步研究的工具學習的開放性問題，例如確保安全和可信賴的工具使用、用基礎模型實現工具創建，以及解決個性化的難題。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1802

文章
48319

瀏覽量
243978
模型

模型

+關注

關注
1

文章
3444

瀏覽量
49698
自然語言處理

自然語言處理

+關注

關注
1

文章
624

瀏覽量
13868

原文標題：清華等開源「工具學習基準」ToolBench，微調模型ToolLLaMA性能超越ChatGPT

文章出處：【微信號：AI智勝未來，微信公眾號：AI智勝未來】歡迎添加關注！文章轉載請注明出處。

ChatGPT等大模型的發展，對GPGPU有怎樣的性能要求？

電子發燒友網報道（文/李彎彎）最近，在ChatGPT火了之后，國內互聯網科技圈不時傳出計劃或者正在研究類ChatGPT大模型的消息。 ? 然而在相關技術真正面世之前，近日，OpenAI又放

發表于 03-07 09:15 ?2251次閱讀

【「基于大模型的RAG應用開發與優化」閱讀體驗】+大模型微調技術解讀

重復項或使用編輯距離算法比較文本相似度。數據標注：高質量的數據標注直接影響模型的性能。標注過程應遵循明確標注規則、選擇合適的標注工具、進行多輪審核和質量控制等原則。數據增強：提高

發表于 01-14 16:51

科技大廠競逐AIGC，中國的ChatGPT在哪？

。亞馬遜成立了一個小型工作組，拓展ChatGPT等AI工具對企業的工作職能…… ChatGPT火爆，搜索引擎巨頭百度率先坐不住了。就在谷歌官宣Bard內測的當天下午，百度官宣了大

發表于 03-03 14:28

清華大學發布首個開源自動圖學工具包

如何應用自動機器學習（AutoML）加速圖機器學習任務的處理？清華大學發布全球首個開源自動圖學習工具

發表于 12-22 16:32 ?1771次閱讀

ChatGPT開源項目匯總表格

CarperAI 是EleutherAI研究小組的一個新實驗室，其任務是“通過強化學習提高大型語言模型 (LLM) 的性能和安全性。” CarperAI 開源了 Transformer

發表于 03-22 14:11 ?1880次閱讀

低成本開源聊天機器人Vicuna：可達到ChatGPT/Bard 90%以上水平

根據介紹，通過根據從 ShareGPT.com (一個用戶可以分享他們的 ChatGPT 對話的網站) 收集的用戶共享對話微調 LLaMA 基礎模型，Vicuna-13B 與 Stanford Alpaca

發表于 04-06 11:09 ?2681次閱讀

微軟開源“傻瓜式”類ChatGPT模型訓練工具

DeepSpeed-RLHF 模塊：DeepSpeed-RLHF 復刻了 InstructGPT 論文中的訓練模式，并確保包括 a) 監督微調（SFT），b) 獎勵模型微調和 c) 基于人類反饋

發表于 04-14 09:36 ?1215次閱讀

支持 ChatGPT 的機器學習模型的概況

本文介紹了支持 ChatGPT 的機器學習模型的概況，文章將從大型語言模型的介紹開始，深入探討用來訓練 GPT-3 的革命性自我注意機制，然后深入研究由人類反饋的強化

發表于 05-26 11:44 ?1022次閱讀

iPhone都能微調大模型了嘛

自動測試分數達到 ChatGPT的99.3%，人類難以分辨兩者的回答…… 這是開源大模型最新成果，來自羊駝家族的又一重磅成員——華盛頓大學原駝（ Guanaco ）。 ? 更關鍵的是，與原駝

發表于 06-02 15:26 ?859次閱讀

ChatGPT：怎樣打造智能客服體驗的重要工具？

ChatGPT作為智能對話生成模型，可以幫助打造智能客服體驗的重要工具。以下是一些方法和步驟：1.數據收集和準備：收集和整理與客服相關的數據，包括常見問題、回答示例、客戶對話記錄等。這

發表于 11-01 11:12 ?348次閱讀

OpenAI開放大模型微調功能　GPT-3.5可以打造專屬ChatGPT

OpenAI開放大模型微調功能 GPT-3.5可以打造專屬ChatGPT OpenAI開放大模型微調功能，這意味著GPT-3.5 Turbo

發表于 08-23 19:34 ?1453次閱讀

開源LLEMMA發布：超越未公開的頂尖模型，可直接應用于工具和定理證明

但LLEMMA的出現改變了這一局面。它不僅在MATH基準測試上創下了新高，甚至超越了某些還未對外公開的頂尖模型，如Minerva。更讓人欣喜的是，LLEMMA無需額外的調整，即可直接應用于工具

發表于 10-22 10:24 ?933次閱讀

最佳開源模型刷新多項SOTA，首次超越Mixtral Instruct！「開源版GPT-4」家族迎來大爆發

Mixtral 8x7B模型開源后，AI社區再次迎來一大波微調實踐。來自Nous Research應用研究小組團隊微調出新一代大模型Nous

發表于 01-30 15:29 ?1155次閱讀

llm模型和chatGPT的區別

LLM（Large Language Model）是指大型語言模型，它們是一類使用深度學習技術構建的自然語言處理（NLP）模型。LLM模型可以處理各種語言任務，如文本生成、文本分類、機

發表于 07-09 09:55 ?1652次閱讀

大模型為什么要微調？大模型微調的原理

難以達到最佳性能。為了提升模型在特定任務上的表現，微調（Fine-tuning）成為了一個關鍵步驟。本文將詳細探討大模型為什么要進行微調以及

發表于 07-10 10:43 ?6157次閱讀