在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

在檢索任務中訓練數據在推理時也大有用處

深度學習自然語言處理 ? 來源:NewBeeNLP ? 作者:h1654155273.8628 ? 2022-06-15 10:57 ? 次閱讀

從大規模數據中檢索通常比較耗時,僅從訓練數據中也能有巨大收益。具體做法是檢索與輸入文本最相似的訓練樣例,拼接后作為輸入喂入模型,然后生成結果。結果在摘要、翻譯、語言模型和QA上都取得了不錯的效果。

論文:Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data[1]

Code:microsoft/REINA[2]

一句話概述:在檢索任務中訓練數據在推理時也大有用處。

文章上來就給我們呈現了整體的結構:

b2e83ada-ebed-11ec-ba43-dac502259ad0.jpg

有點類似 Prompt 學習,但本文主要關注有監督學習的設置。結果不僅效果很好,而且很容易擴展(只要增加有標注訓練數據就行),計算代價也小。我覺得本文相對最有意思的一個發現是文中所寫:即便有成噸的參數,一個模型也不能記住訓練數據中的所有模式。所以,重新捕獲相關的訓練數據作為一個手拉手提示器,就可以提供明確的信息來提高模型(推理)的性能。

整體架構如下圖所示(REINA):

b316d20a-ebed-11ec-ba43-dac502259ad0.jpg

一張圖其實已經很清楚地表達出意思了:對不同的任務構造不同的輸入,但都會將訓練數據拼接上后再喂入模型,得到最后的答案,這里的答案是通過語言模型生成的。檢索算法使用 BM25。

形式化模型為:

其中,M 表示生成模型,x 是輸入,大括號里的就是 top K 個檢索到的最相似的訓練數據。

對 QA 任務,將輸入文本和每個選項拼接后作為 query,然后獲取相關的訓練數據。如果需要加入外部知識,則調整為:

其中,C 表示選項。拼接實體字典定義和關系 R,用來為一個 Q 構造知識 K。

Ex 表示與 Q 相關的實體,Ec 表示與 A 相關的實體。本文的相關指:在句子中出現。

用人話簡單描述一下就是:給定 Q,在訓練數據中找到相似的 QA 對,對每個 QA 對,找到其中所涉及的實體和關系,然后將實體的定義和關系也拼接進去,最后組成一長串文本作為模型輸入。

相似檢索使用 Lucene Index,模型訓練使用 Transformers。實驗結果(以文本摘要為例)如下:

b3394fe2-ebed-11ec-ba43-dac502259ad0.jpg

結果顯示,REINA 可以顯著提升(幾乎所有數據集)使用不同預訓練模型初始化的基線。在 case 分析時,作者發現 REINA 的數據和真實標簽之間有很強的相關性。

總之,本文的思路非常簡單,但效果卻不錯,在工業上可以一試,尤其是生成式文本摘要和 QA 任務。不過,感覺這好像也算是一種 prompt 吧,使用訓練數據來「拉近」輸入和真實標簽之間的距離。

本文參考資料

[1]

Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data: https://arxiv.org/abs/2203.08773

[2]

microsoft/REINA: https://github.com/microsoft/REINA

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7192

    瀏覽量

    89767
  • 檢索
    +關注

    關注

    0

    文章

    27

    瀏覽量

    13187

原文標題:ACL2022 | 微軟:永遠不要低估你的訓練數據!

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    FP8大模型訓練的應用

    。如果在訓練時使用 FP8 精度,可以更方便快速的將 FP8 部署到推理側,使 FP8 訓練可以更容易順暢地與低精度推理相結合等。
    的頭像 發表于 01-23 09:39 ?270次閱讀
    FP8<b class='flag-5'>在</b>大模型<b class='flag-5'>訓練</b><b class='flag-5'>中</b>的應用

    《具身智能機器人系統》第7-9章閱讀心得之具身智能機器人與大模型

    布外任務展示出多樣化和復雜的推廣能力。 知識載體 知識嵌入訓練期間學習的模型參數。 知識載體是記憶和隱藏狀態,專注于上下文學習和適應。 可擴展性 通過擴展參數和預
    發表于 12-24 15:03

    FP8數據格式大型模型訓練的應用

    本文主要介紹了 FP8 數據格式大型模型訓練的應用、挑戰及最佳實踐,展示了 FP8 提升訓練
    的頭像 發表于 11-19 14:54 ?739次閱讀
    FP8<b class='flag-5'>數據</b>格式<b class='flag-5'>在</b>大型模型<b class='flag-5'>訓練</b><b class='flag-5'>中</b>的應用

    FPGA和ASIC大模型推理加速的應用

    隨著現在AI的快速發展,使用FPGA和ASIC進行推理加速的研究越來越多,從目前的市場來說,有些公司已經有了專門做推理的ASIC,像Groq的LPU,專門針對大語言模型的推理做了優化
    的頭像 發表于 10-29 14:12 ?879次閱讀
    FPGA和ASIC<b class='flag-5'>在</b>大模型<b class='flag-5'>推理</b>加速<b class='flag-5'>中</b>的應用

    NVIDIA助力麗蟾科技打造AI訓練推理加速解決方案

    麗蟾科技通過 Leaper 資源管理平臺集成 NVIDIA AI Enterprise,為企業和科研機構提供了一套高效、靈活的 AI 訓練推理加速解決方案。無論是復雜的 AI 開發任務
    的頭像 發表于 10-27 10:03 ?329次閱讀
    NVIDIA助力麗蟾科技打造AI<b class='flag-5'>訓練</b>與<b class='flag-5'>推理</b>加速解決方案

    GPU服務器AI訓練的優勢具體體現在哪些方面?

    GPU服務器AI訓練的優勢主要體現在以下幾個方面: 1、并行處理能力:GPU服務器擁有大量的并行處理核心,這使得它們能夠同時處理成千上萬個計算任務,極大地加速了AI模型的
    的頭像 發表于 09-11 13:24 ?599次閱讀

    軟件系統的數據檢索設計

    軟件系統的數據檢索設計 隨著業務量加大,數據檢索會日益增多,為了減輕數據庫壓力,本系統采用ElasticSearch來實現數據檢索功能。
    的頭像 發表于 08-22 14:08 ?323次閱讀
    軟件系統的<b class='flag-5'>數據檢索</b>設計

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    與匹配 模型可能結合高效檢索技術來快速定位與問題相關的信息源。通過匹配算法和索引技術,模型可以從海量數據篩選出最相關的文本片段作為候選答案。 3. 推理與生成
    發表于 08-02 11:03

    FPGA人工智能的應用有哪些?

    FPGA(現場可編程門陣列)人工智能領域的應用非常廣泛,主要體現在以下幾個方面: 一、深度學習加速 訓練推理過程加速:FPGA可以用來加速深度學習的訓練
    發表于 07-29 17:05

    不同類型神經網絡回歸任務的應用

    神經網絡是一種強大的機器學習模型,可以用于各種任務,包括回歸。本文中,我們將討論不同類型的神經網絡,以及它們回歸任務的應用。 基本的神
    的頭像 發表于 07-11 10:27 ?1448次閱讀

    數據軍事訓練領域的應用有哪些

    智慧華盛恒輝大數據軍事訓練領域的應用廣泛且深入,以下是具體的應用點及其歸納: 智慧華盛恒輝個性化訓練計劃: 通過收集和分析每個士兵的訓練
    的頭像 發表于 06-23 10:21 ?795次閱讀

    【大語言模型:原理與工程實踐】大語言模型的應用

    任務上表現出色,甚至零樣本條件下能取得良好效果。另一類則需要逐步推理才能完成的任務,類似于人類的系統2,如數字
    發表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    大語言模型的核心特點在于其龐大的參數量,這賦予了模型強大的學習容量,使其無需依賴微調即可適應各種下游任務,而更傾向于培養通用的處理能力。然而,隨著學習容量的增加,對預訓練數據的需求
    發表于 05-07 17:10

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    用于文本生成,根據提示或上下文生成連貫、富有創造性的文本,為故事創作等提供無限可能。大語言模型面臨挑戰。一方面,其計算資源需求巨大,訓練推理耗時;另一方面,模型高度依賴數據,需要大
    發表于 05-04 23:55

    AI推理,和訓練有什么不同?

    如果要用一句話概括AI的訓練推理的不同之處,我覺得用“臺上一分鐘,臺下十年功”最為貼切。話說小明已經和心目中的女神交往數年,邀約女神出門這件事上積累了大量的經驗數據,但卻依然捉摸不
    的頭像 發表于 04-29 08:06 ?210次閱讀
    AI<b class='flag-5'>推理</b>,和<b class='flag-5'>訓練</b>有什么不同?
    主站蜘蛛池模板: 伊人男人天堂 | 欧美怡红院免费全视频 | 色西西| 亚洲人成电影在线观看网 | 四虎comwww最新地址 | 国产精品久久久久久久久齐齐 | 高黄网站 | 亚洲三级小视频 | 午夜国产精品视频 | 色综合888 | 色多多·com 色多多18免费观看 色多多a | 免费又爽又黄禁片视频在线播放 | 亚洲人成综合网站在线 | 四虎传媒 | 亚洲网在线 | 欧美洲视频在线观看 | 国产男人午夜视频在线观看 | 中文一区| 七月婷婷精品视频在线观看 | 在线视频一区二区三区 | 国产成人教育视频在线观看 | 三级视频在线播放线观看 | 男人资源站 | 高清视频 一区二区三区四区 | 巨尻在线观看 | 免费看黄色片的软件 | 婷婷综合在线观看丁香 | 男女视频在线观看免费高清观看 | 爱爱的免费视频 | 女人张腿让男桶免费视频网站 | 亚洲视屏一区 | 四虎国产永久免费久久 | 免费在线色 | 日本色黄视频 | 国产在线干 | 四虎一区二区三区精品 | 国产精品japanese人妖 | 国产亚洲欧美成人久久片 | 天天做天天爱天天干 | 亚洲一区在线免费观看 | 日本高清视频色 |