在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

小模型也能進(jìn)行上下文學(xué)習(xí)!字節(jié)&華東師大聯(lián)合提出自進(jìn)化文本識別器

CVer ? 來源:CVer ? 2023-11-27 16:28 ? 次閱讀

大語言模型(LLM)能夠以一種無需微調(diào)的方式從少量示例中學(xué)習(xí),這種方式被稱為 "上下文學(xué)習(xí)"(In-context Learning)。目前只在大模型上觀察到上下文學(xué)習(xí)現(xiàn)象,那么,常規(guī)大小的模型是否具備類似的能力呢?GPT4、Llama等大模型在非常多的領(lǐng)域中都表現(xiàn)出了杰出的性能,但很多場景受限于資源或者實(shí)時性要求較高,無法使用大模型。為了探索小模型的上下文學(xué)習(xí)能力,字節(jié)和華東師大的研究團(tuán)隊(duì)在場景文本識別任務(wù)上進(jìn)行了研究。

場景文本識別(Scene Text Recognition)的目標(biāo)是將圖像中的文本內(nèi)容提取出來。實(shí)際應(yīng)用場景中,場景文本識別面臨著多種挑戰(zhàn):不同的場景、文字排版、形變、光照變化、字跡模糊、字體多樣性等,因此很難訓(xùn)練一個能應(yīng)對所有場景的統(tǒng)一的文本識別模型。一個直接的解決辦法是收集相應(yīng)的數(shù)據(jù),然后在特定場景下對模型進(jìn)行微調(diào)。但是這一過程需要重新訓(xùn)練模型,當(dāng)場景變多、領(lǐng)域任務(wù)變得復(fù)雜時,實(shí)際的訓(xùn)練、存儲、維護(hù)資源則呈幾何倍增長。如果文本識別模型也能具備上下文學(xué)習(xí)能力,面對新的場景,只需少量標(biāo)注數(shù)據(jù)作為提示,就能提升在新場景上的性能,那么上面的問題就迎刃而解。然而,場景文本識別是一個資源敏感型任務(wù),將大模型當(dāng)作文本識別器非常耗費(fèi)資源,并且通過初步的實(shí)驗(yàn),研究人員發(fā)現(xiàn)傳統(tǒng)的訓(xùn)練大模型的方法在場景文本識別任務(wù)上并不適用。

為了解決這個問題,來自字節(jié)和華東師大的研究團(tuán)隊(duì)提出了自進(jìn)化文本識別器,ESTR(Ego-Evolving Scene Text Recognizer),一個融合了上下文學(xué)習(xí)能力的常規(guī)大小文本識別器,無需微調(diào)即可快速適應(yīng)不同的文本識別場景。ESTR配備了一種上下文訓(xùn)練和上下文推理模式,不僅在常規(guī)數(shù)據(jù)集上達(dá)到了SOTA的水平,而且可以使用單一模型提升在各個場景中的識別性能,實(shí)現(xiàn)對新場景的快速適應(yīng),甚至超過了經(jīng)過微調(diào)后專用模型的識別性能。ESTR證明,常規(guī)大小的模型足以在文本識別任務(wù)中實(shí)現(xiàn)有效的上下文學(xué)習(xí)能力。ESTR在各種場景中無需微調(diào)即可表現(xiàn)出卓越的適應(yīng)性,甚至超過了經(jīng)過微調(diào)后的識別性能。

8e61a640-8c75-11ee-939d-92fbcf53809c.png

論文地址:https://arxiv.org/pdf/2311.13120

方法

圖1介紹了ESTR的訓(xùn)練和推理流程。

8e777d4e-8c75-11ee-939d-92fbcf53809c.png

1.基礎(chǔ)文本識別訓(xùn)練

基礎(chǔ)文本識別訓(xùn)練階段采用自回歸框架訓(xùn)練視覺編碼器和語言解碼器:

8e992818-8c75-11ee-939d-92fbcf53809c.png

2.上下文訓(xùn)練

上下文訓(xùn)練階段ESTR 將根據(jù)文中提出的上下文訓(xùn)練范式進(jìn)行進(jìn)一步訓(xùn)練。在這一階段,ESTR 會學(xué)習(xí)理解不同樣本之間的聯(lián)系,從而從上下文提示中獲益。

8ea68454-8c75-11ee-939d-92fbcf53809c.png

如圖2所示,這篇文章提出 ST 策略,在場景文本數(shù)據(jù)中進(jìn)行隨機(jī)的分割和轉(zhuǎn)換,從而生成一組 "子樣本"。子樣本在視覺和語言方面都是內(nèi)在聯(lián)系的。這些內(nèi)在聯(lián)系的樣本被拼接成一個序列,模型從這些語義豐富的序列中學(xué)習(xí)上下文知識,從而獲取上下文學(xué)習(xí)的能力。這一階段同樣采用自回歸框架進(jìn)行訓(xùn)練:

8eb82718-8c75-11ee-939d-92fbcf53809c.png

3.上下文推理

針對一個測試樣本,該框架會從上下文提示池中選擇 個樣本,這些樣本在視覺隱空間與測試樣本具有最高的相似度。具體來說,這篇文章通過對視覺token序列做平均池化,計(jì)算出圖像embedding 。然后,從上下文池中選擇圖像嵌入與 的余弦相似度最高的前 N 個樣本,從而形成上下文提示。

8ec51a9a-8c75-11ee-939d-92fbcf53809c.png

上下文提示和測試樣本拼接在一起送入模型,ESTR便會以一種無訓(xùn)練的方式從上下文提示中學(xué)得新知識,提升測試樣本的識別準(zhǔn)確率。值得注意的是,上下文提示池只保留了視覺編碼器輸出的token,使得上下文提示的選擇過程非常高效。此外,由于上下文提示池很小,而且ESTR不需要訓(xùn)練就能直接進(jìn)行推理,因此額外的消耗也降到了最低限度。

實(shí)驗(yàn)

實(shí)驗(yàn)從三個角度進(jìn)行:

1.傳統(tǒng)數(shù)據(jù)集

從訓(xùn)練集中隨機(jī)抽取很少的樣本(1000個,訓(xùn)練集 0.025% 的樣本數(shù)量)組成上下文提示池,在12個常見的場景文本識別測試集中進(jìn)行的測試,結(jié)果如下:

8eef0760-8c75-11ee-939d-92fbcf53809c.png

2.跨域場景

跨域場景下每個測試集僅提供100個域內(nèi)訓(xùn)練樣本,無訓(xùn)練和微調(diào)對比結(jié)果如下。ESTR甚至超過了SOTA方法的微調(diào)結(jié)果。

8f0ad454-8c75-11ee-939d-92fbcf53809c.png

3.困難樣本修正

研究人員收集了一批困難樣本,對這些樣本提供了10%~20%的標(biāo)注,對比ESTR的無訓(xùn)練學(xué)習(xí)方法和SOTA方法的微調(diào)學(xué)習(xí)方法,結(jié)果如下:

8f2a9f82-8c75-11ee-939d-92fbcf53809c.png

可以發(fā)現(xiàn),ESTR-ICL大大降低了困難樣本的錯誤率。

未來展望

ESTR證明了使用合適的訓(xùn)練和推理策略,小模型也可以擁有和LLM類似的In-context Learning的能力。在一些實(shí)時性要求比較強(qiáng)的任務(wù)中,使用小模型也可以對新場景進(jìn)行快速的適應(yīng)。更重要的是,這種使用單一模型來實(shí)現(xiàn)對新場景快速適應(yīng)的方法使得構(gòu)建統(tǒng)一高效的小模型更近了一步。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3471

    瀏覽量

    49874
  • 識別器
    +關(guān)注

    關(guān)注

    0

    文章

    21

    瀏覽量

    7693
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2961

    瀏覽量

    3710

原文標(biāo)題:小模型也能進(jìn)行上下文學(xué)習(xí)!字節(jié)&華東師大聯(lián)合提出自進(jìn)化文本識別器

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    S32K在AUTOSAR中使用CAT1 ISR,是否需要執(zhí)行上下文切換?

    如果我們在 AUTOSAR 中使用 CAT1 ISR,是否需要執(zhí)行上下文切換?另外,是否需要返回指令才能跳回到作系統(tǒng)?您有沒有帶有 CAT1 ISR 的 S32K3x4 微控制的示例?
    發(fā)表于 03-27 07:34

    DeepSeek推出NSA機(jī)制,加速長上下文訓(xùn)練與推理

    的特性,專為超快速的長上下文訓(xùn)練和推理而設(shè)計(jì)。 NSA通過針對現(xiàn)代硬件的優(yōu)化設(shè)計(jì),顯著加快了推理速度,并大幅度降低了預(yù)訓(xùn)練成本,同時保持了卓越的性能表現(xiàn)。這一機(jī)制在確保效率的同時,并未犧牲模型的準(zhǔn)確性或功能。 在廣泛的基準(zhǔn)測試、涉及長
    的頭像 發(fā)表于 02-19 14:01 ?533次閱讀

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】RAG基本概念

    多路召回策略從海量數(shù)據(jù)中初步篩選相關(guān)信息,利用語義相似度計(jì)算深入評估信息與需求的匹配程度,再通過上下文相關(guān)性過濾確保信息的精準(zhǔn)度。大模型集成層,為了能與主流的大語言模型(LLM)順利對接,進(jìn)行
    發(fā)表于 02-08 00:22

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+Embedding技術(shù)解讀

    與文檔庫中每個文檔向量的相似度,來檢索最相關(guān)的文檔。這一過程依賴于Embedding模型文本語義的準(zhǔn)確捕捉。檢索到的文檔與用戶的問題一起被Embedding模型轉(zhuǎn)換為向量,形成新的上下文
    發(fā)表于 01-17 19:53

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

    。對于文本數(shù)據(jù),可以采用同義詞替換、句法變換、上下文擴(kuò)展等技術(shù)。微調(diào)策略和方法全參數(shù)微調(diào):對模型的所有參數(shù)進(jìn)行再訓(xùn)練。雖然需要大量的計(jì)算資源,但它可以充分適應(yīng)特定任務(wù)。輕量級微調(diào)方法:
    發(fā)表于 01-14 16:51

    《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型

    的應(yīng)用。MAML算法通過二階優(yōu)化找到對任務(wù)變化敏感的模型參數(shù),實(shí)現(xiàn)了快速適應(yīng)。上下文學(xué)習(xí)則引入了注意力機(jī)制,使模型能夠根據(jù)當(dāng)前場景動態(tài)調(diào)整行為策略。在預(yù)訓(xùn)練-微調(diào)范式中,我們要注意任務(wù)表示的重要性:好的表示
    發(fā)表于 12-24 15:03

    Llama 3 語言模型應(yīng)用

    理解復(fù)雜的上下文信息,包括對話歷史、用戶偏好和文化差異。這使得它在對話系統(tǒng)和個性化推薦中表現(xiàn)出色。 情感分析 :通過深度學(xué)習(xí)技術(shù),Llama 3 能夠識別和理解文本中的情感傾向,無論是
    的頭像 發(fā)表于 10-27 14:15 ?613次閱讀

    onsemi LV/MV MOSFET 產(chǎn)品介紹 & 行業(yè)應(yīng)用

    系列MOSFET介紹。4.onsemiLV/MVMOSFET市場&應(yīng)用。技術(shù)亮點(diǎn)onsemi最新一代T10系列MOSFET優(yōu)勢&市場前景。學(xué)習(xí)收獲期望了解onsemiSi
    的頭像 發(fā)表于 10-13 08:06 ?769次閱讀
    onsemi LV/MV MOSFET 產(chǎn)品介紹 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 行業(yè)應(yīng)用

    SystemView上下文統(tǒng)計(jì)窗口識別阻塞原因

    SystemView工具可以記錄嵌入式系統(tǒng)的運(yùn)行時行為,實(shí)現(xiàn)可視化的深入分析。在新發(fā)布的v3.54版本中,增加了一項(xiàng)新功能:上下文統(tǒng)計(jì)窗口,提供了對任務(wù)運(yùn)行時統(tǒng)計(jì)信息的深入分析,使用戶能夠徹底檢查每個任務(wù),幫助開發(fā)人員識別阻塞原因。
    的頭像 發(fā)表于 08-20 11:31 ?604次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識學(xué)習(xí)

    的信息,提供更全面的上下文理解。這使得模型能夠更準(zhǔn)確地理解復(fù)雜問題中的多個層面和隱含意義。 2. 語義分析 模型通過訓(xùn)練學(xué)習(xí)到語言的語義特征,能夠
    發(fā)表于 08-02 11:03

    鴻蒙Ability Kit(程序框架服務(wù))【應(yīng)用上下文Context】

    [Context]是應(yīng)用中對象的上下文,其提供了應(yīng)用的一些基礎(chǔ)信息,例如resourceManager(資源管理)、applicationInfo(當(dāng)前應(yīng)用信息)、dir(應(yīng)用文件路徑)、area
    的頭像 發(fā)表于 06-06 09:22 ?761次閱讀
    鴻蒙Ability Kit(程序框架服務(wù))【應(yīng)用<b class='flag-5'>上下文</b>Context】

    編寫一個任務(wù)調(diào)度程序,在上下文切換后遇到了一些問題求解

    \"rfe\" 不會在 A[11] 寄存中設(shè)置新的返回地址。 當(dāng)任務(wù)函數(shù)以\"ret16\" 結(jié)束時,μC 將在陷阱中運(yùn)行。 我在上下文切換的準(zhǔn)備過程中錯過了什么? 在上下文切換/\"rfe\" 之后,A[11] 的正確行為是
    發(fā)表于 05-22 07:50

    MiniMax推出“海螺AI”,支持超長文本處理

    近日,大模型公司MiniMax宣布,其全新產(chǎn)品“海螺AI”已正式上架。這款強(qiáng)大的AI工具支持高達(dá)200ktokens的上下文長度,能夠在1秒內(nèi)處理近3萬字的文本
    的頭像 發(fā)表于 05-17 09:30 ?1157次閱讀

    OpenAI發(fā)布GPT-4o模型,支持文本、圖像、音頻信息,速度提升一倍,價格不變

     此外,該模型還具備128K的上下文記憶能力,知識截止日期設(shè)定為2023年10月。微軟方面宣布,已通過Azure OpenAI服務(wù)提供GPT-4o的預(yù)覽版。
    的頭像 發(fā)表于 05-14 17:12 ?1050次閱讀

    大語言模型:原理與工程時間+小白初識大語言模型

    的分布式表示,基于預(yù)訓(xùn)練的詞嵌入表示。 獨(dú)熱表示就是在一個大的向量空間中,其中一個位1,其余都為0,這樣就會變成單獨(dú)的。 詞的分布式表示:根據(jù)上下文進(jìn)行推斷語義。 基于預(yù)訓(xùn)練的詞嵌入表示:重要的是利用莫
    發(fā)表于 05-12 23:57
    主站蜘蛛池模板: 在线天堂bt中文www在线 | 日本黄色视屏 | 国产成人99久久亚洲综合精品 | 欧美aaaaaaaaaa| 精品欧美一区二区三区在线观看 | 国产床戏无遮掩视频播放 | 色天天综合久久久久综合片 | 亚洲人成电影 | 天天夜干 | 日本不卡在线一区二区三区视频 | 久色国产 | 高清色黄毛片一级毛片 | 日本特黄特色aaa大片免费欧 | 狠狠干夜夜 | 色播在线永久免费视频网站 | 日本三级欧美三级香港黄 | 欧美一卡二卡3卡4卡无卡六卡七卡科普 | 5g国产精品影院天天5g天天爽 | 午夜免费r级伦理片 | 欧美色图狠狠干 | 国产 麻豆 欧美亚洲综合久久 | 午夜影院性 | 一级特黄色毛片免费看 | 九色视频在线播放 | 免费一级特黄 欧美大片 | 亚洲国产精品乱码一区二区三区 | 东北老女人啪啪对白 | 人人操在线播放 | 日日摸夜夜爽夜夜爽出水 | 在线播放黄色网址 | 四虎影院成人 | 日本加勒比高清一本大道 | 在线你懂的视频 | 特级毛片网站 | 亚洲不卡免费视频 | 岛国一级毛片 | 免费观看一区二区 | 免费观看在线视频 | 亚洲色图日韩精品 | 国产精品成人va在线观看入口 | 国产精品久久久久天天影视 |