從大規模數據中檢索通常比較耗時,僅從訓練數據中也能有巨大收益。具體做法是檢索與輸入文本最相似的訓練樣例,拼接后作為輸入喂入模型,然后生成結果。結果在摘要、翻譯、語言模型和QA上都取得了不錯的效果。
論文:Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data[1]
Code:microsoft/REINA[2]
一句話概述:在檢索任務中訓練數據在推理時也大有用處。
文章上來就給我們呈現了整體的結構:
有點類似 Prompt 學習,但本文主要關注有監督學習的設置。結果不僅效果很好,而且很容易擴展(只要增加有標注訓練數據就行),計算代價也小。我覺得本文相對最有意思的一個發現是文中所寫:即便有成噸的參數,一個模型也不能記住訓練數據中的所有模式。所以,重新捕獲相關的訓練數據作為一個手拉手提示器,就可以提供明確的信息來提高模型(推理)的性能。
整體架構如下圖所示(REINA):
一張圖其實已經很清楚地表達出意思了:對不同的任務構造不同的輸入,但都會將訓練數據拼接上后再喂入模型,得到最后的答案,這里的答案是通過語言模型生成的。檢索算法使用 BM25。
形式化模型為:
其中,M 表示生成模型,x 是輸入,大括號里的就是 top K 個檢索到的最相似的訓練數據。
對 QA 任務,將輸入文本和每個選項拼接后作為 query,然后獲取相關的訓練數據。如果需要加入外部知識,則調整為:
其中,C 表示選項。拼接實體字典定義和關系 R,用來為一個 Q 構造知識 K。
Ex 表示與 Q 相關的實體,Ec 表示與 A 相關的實體。本文的相關指:在句子中出現。
用人話簡單描述一下就是:給定 Q,在訓練數據中找到相似的 QA 對,對每個 QA 對,找到其中所涉及的實體和關系,然后將實體的定義和關系也拼接進去,最后組成一長串文本作為模型輸入。
相似檢索使用 Lucene Index,模型訓練使用 Transformers。實驗結果(以文本摘要為例)如下:
結果顯示,REINA 可以顯著提升(幾乎所有數據集)使用不同預訓練模型初始化的基線。在 case 分析時,作者發現 REINA 的數據和真實標簽之間有很強的相關性。
總之,本文的思路非常簡單,但效果卻不錯,在工業上可以一試,尤其是生成式文本摘要和 QA 任務。不過,感覺這好像也算是一種 prompt 吧,使用訓練數據來「拉近」輸入和真實標簽之間的距離。
本文參考資料
[1]
Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data: https://arxiv.org/abs/2203.08773
[2]
microsoft/REINA: https://github.com/microsoft/REINA
審核編輯 :李倩
-
數據
+關注
關注
8文章
7192瀏覽量
89767 -
檢索
+關注
關注
0文章
27瀏覽量
13187
原文標題:ACL2022 | 微軟:永遠不要低估你的訓練數據!
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
《具身智能機器人系統》第7-9章閱讀心得之具身智能機器人與大模型
FPGA和ASIC在大模型推理加速中的應用
![FPGA和ASIC<b class='flag-5'>在</b>大模型<b class='flag-5'>推理</b>加速<b class='flag-5'>中</b>的應用](https://file1.elecfans.com/web2/M00/0B/59/wKgaomcgfcaAXbbKAAA3sbCK-zU385.png)
NVIDIA助力麗蟾科技打造AI訓練與推理加速解決方案
![NVIDIA助力麗蟾科技打造AI<b class='flag-5'>訓練</b>與<b class='flag-5'>推理</b>加速解決方案](https://file1.elecfans.com/web2/M00/0A/50/wKgZomcdoBOASYB2AAANyPB4II4590.png)
GPU服務器在AI訓練中的優勢具體體現在哪些方面?
【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習
FPGA在人工智能中的應用有哪些?
不同類型神經網絡在回歸任務中的應用
大數據在軍事訓練領域的應用有哪些
【大語言模型:原理與工程實踐】大語言模型的預訓練
【大語言模型:原理與工程實踐】揭開大語言模型的面紗
AI推理,和訓練有什么不同?
![AI<b class='flag-5'>推理</b>,和<b class='flag-5'>訓練</b>有什么不同?](https://file.elecfans.com/web2/M00/43/7B/pYYBAGJ-B6aAHuNPAAAf8J1Ebk4778.jpg)
評論