【導讀】工具學習的開源時代來了!
人類具有創造和利用工具的能力,使得我們可以突破身體的限制,探索更廣闊的世界。
人工智能基礎模型也類似,如果僅靠訓練階段得到的權重,使用場景就會非常受限,而最近提出的工具學習(tool learning),將特定領域的專用工具與大規模基礎模型相結合,可以實現更高的效率、性能。
不過目前工具學習的相關研究還不夠深入,也缺乏相關的開源數據和代碼。
最近,清華大學自然語言處理實驗室等支持的開源社區OpenBMB (Open Lab for Big Model Base)發布了ToolBench項目,可以幫助開發者構建開源、大規模、高質量的指令調優數據,促進構建具有通用工具使用能力的大型語言模型。
倉庫鏈接:https://github.com/OpenBMB/ToolBench
ToolBench倉庫中提供了相關數據集、訓練和評估腳本,以及在ToolBench上微調的功能模型ToolLLaMA,具體特點為:
1. 支持單工具和多工具方案
其中單工具設置遵循LangChain提示風格,多工具設置遵循AutoGPT的提示風格。
2. 模型回復不僅包括最終答案,還包含模型的思維鏈過程、工具執行和工具執行結果
3. 支持真實世界級別的復雜性,支持多步工具調用
4. 豐富的API,可用于現實世界中的場景,如天氣信息、搜索、股票更新和PowerPoint自動化
5. 所有的數據都是由OpenAI API自動生成并由開發團隊進行過濾,數據的創建過程很容易擴展
不過需要注意的是,目前發布的數據還不是最終版本,研究人員仍然在對數據進行后處理來提高數據質量,并增加真實世界工具的覆蓋范圍。
ToolBench
ToolBench的總體思路是基于BMTools,在有監督數據中訓練大型語言模型。
倉庫中包含31.2萬次真實API調用得到的9800條數據,涵蓋單工具場景和多工具場景,下面是單工具的統計信息。
其中每行數據都是一個json dict,包含數據創建的提示模板、工具使用的人工指令(查詢)、中間思維/工具執行循環和最終答案。
模型實驗
機器評估:研究人員對每個工具隨機抽取100個鏈步(chain steps)來構建機器評估測試平臺,平均27個最終步驟和73個中間工具調用步驟,其中最終步驟的評估使用Rouge-L指標,中間步驟的評估使用ExactMatch指標進行評估。
人工評估:在天氣、地圖、股票、翻譯、化學和WolframAlpha工具中隨機抽取10個query,然后評估工具調用過程的通過率、最終答案以及和ChatGPT最終答案的比較。
ChatGPT評估:通過ChatGPT對LLaMA和ChatGPT的答案和工具使用鏈進行自動評估。
評估結果如下(分數越高越好),可以看到ToolLLaMA在不同場景下與ChatGPT的性能相同或更好。
工具學習
在清華大學、人民大學、北京郵電大學等個國內外知名高校和大學聯合發布的一篇論文中,對工具學習進行了系統的研究,介紹了工具學習的背景,包括認知起源、基礎模型的范式轉變,以及工具和模型的互補作用。
論文鏈接:https://arxiv.org/pdf/2304.08354.pdf
文中還回顧了現有的工具學習研究,包括工具增強型和工具導向型學習,并制定了一個通用的工具學習框架:從理解用戶指令開始,模型應該學會把一個復雜的任務分解成幾個子任務,通過推理動態地調整計劃,并通過選擇合適的工具有效地征服每個子任務。
文中還討論了如何訓練模型以提高工具使用能力并促進工具學習的普及。
考慮到之前的工作中缺乏系統的工具學習評估,研究人員用17種有代表性的工具進行了實驗,并展示了當前基礎模型在熟練利用工具方面的潛力。
論文最后討論了幾個需要進一步研究的工具學習的開放性問題,例如確保安全和可信賴的工具使用、用基礎模型實現工具創建,以及解決個性化的難題。
-
人工智能
+關注
關注
1802文章
48319瀏覽量
243978 -
模型
+關注
關注
1文章
3444瀏覽量
49698 -
自然語言處理
+關注
關注
1文章
624瀏覽量
13868
原文標題:清華等開源「工具學習基準」ToolBench,微調模型ToolLLaMA性能超越ChatGPT
文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
ChatGPT等大模型的發展,對GPGPU有怎樣的性能要求?
【「基于大模型的RAG應用開發與優化」閱讀體驗】+大模型微調技術解讀
科技大廠競逐AIGC,中國的ChatGPT在哪?
ChatGPT開源項目匯總表格
低成本開源聊天機器人Vicuna:可達到ChatGPT/Bard 90%以上水平
微軟開源“傻瓜式”類ChatGPT模型訓練工具
支持 ChatGPT 的機器學習模型的概況

iPhone都能微調大模型了嘛

ChatGPT:怎樣打造智能客服體驗的重要工具?

OpenAI開放大模型微調功能 GPT-3.5可以打造專屬ChatGPT
開源LLEMMA發布:超越未公開的頂尖模型,可直接應用于工具和定理證明

最佳開源模型刷新多項SOTA,首次超越Mixtral Instruct!「開源版GPT-4」家族迎來大爆發

評論