在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何優(yōu)雅地使用bert處理長(zhǎng)文本

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:wangThr ? 2020-12-26 09:17 ? 次閱讀

這是今年清華大學(xué)及阿里巴巴發(fā)表在NIPS 2020上的一篇論文《CogLTX: Applying BERT to Long Texts》,介紹了如何優(yōu)雅地使用bert處理長(zhǎng)文本。作者同時(shí)開源了不同NLP任務(wù)下使用COGLTX的代碼:

論文題目:

CogLTX: Applying BERT to Long Texts

論文鏈接:

http://keg.cs.tsinghua.edu.cn/jietang/publications/NIPS20-Ding-et-al-CogLTX.pdf

Github:

https://github.com/Sleepychord/CogLTX

bert在長(zhǎng)文本處理一般分為三種方法[1]:

截?cái)喾ǎ?/p>

Pooling法;

壓縮法。

該論文就是壓縮法的一種,是三種方法中最好的。我們?cè)诳蒲泻凸ぷ髦卸紩?huì)遇到該問題,例如我最近關(guān)注的一個(gè)文本分類比賽:

面向數(shù)據(jù)安全治理的數(shù)據(jù)內(nèi)容智能發(fā)現(xiàn)與分級(jí)分類 競(jìng)賽 - DataFountain[2].

其文本數(shù)據(jù)長(zhǎng)度就都在3000左右,無法將其完整輸入bert,使用COGLTX就可以很好地處理該問題,那么就一起來看看該論文具體是怎么做的吧。

1.背景

基于以下情形:

bert作為目前最優(yōu)秀的PLM,不用是不可能的;

長(zhǎng)文本數(shù)據(jù)普遍存在,且文本中包含的信息非常分散,難以使用滑動(dòng)窗口[3]截?cái)唷?/p>

而由于bert消耗計(jì)算資源和時(shí)間隨著token的長(zhǎng)度是平方級(jí)別增長(zhǎng)的,所以其無法處理太長(zhǎng)的token,目前最長(zhǎng)只支持512個(gè)token,token過長(zhǎng)也很容易會(huì)內(nèi)存溢出,所以在使用bert處理長(zhǎng)文本時(shí)需要設(shè)計(jì)巧妙的方法來解決這個(gè)問題。

b48db3fa-4690-11eb-8b86-12bb97331649.jpg

2.提出模型

COGLTX模型在三類NLP任務(wù)中的結(jié)構(gòu)如下:

b5408b9c-4690-11eb-8b86-12bb97331649.jpg

b5acc258-4690-11eb-8b86-12bb97331649.jpg

首先假設(shè):存在短文本 可以完全表達(dá)原長(zhǎng)文本 的語義:

那么令 代替 輸入原來的模型即可,那么怎么找到這個(gè) 呢

1、使用動(dòng)態(tài)規(guī)劃算法將長(zhǎng)文本 劃分為文本塊集合 ;

2、使用MemRecall對(duì)原長(zhǎng)句中的子句進(jìn)行打分,MemRecall結(jié)構(gòu)如圖,而表現(xiàn)如下式:

從而選擇出分?jǐn)?shù)最高的子句組成 再進(jìn)行訓(xùn)練,這樣一來的話,COGLTX相當(dāng)于使用了了兩個(gè)bert,MemRecall中bert就是負(fù)責(zé)打分,另一個(gè)bert執(zhí)行原本的NLP任務(wù)。

可以發(fā)現(xiàn)剛才找到 例子將問題Q放在了初始化 的開頭,但是并不是每個(gè)NLP任務(wù)都可以這么做,分類的時(shí)候就沒有類似Q的監(jiān)督,這時(shí)候COGLTX采用的策略是將每個(gè)子句從原句中移除判斷其是否是必不可少的(t是一個(gè)閾值):

作者通過設(shè)計(jì)不同任務(wù)下的MemRecall實(shí)現(xiàn)了在長(zhǎng)文本中使用bert并通過實(shí)驗(yàn)證明了方法的有效性。

3.實(shí)驗(yàn)

b63a5dd4-4690-11eb-8b86-12bb97331649.jpg

通過多維度地對(duì)比,證明了本文提出算法的有效性。

參考文獻(xiàn)

[1]https://zhuanlan.zhihu.com/p/88944564

[2]https://www.datafountain.cn/competitions/471

[3]Z. Wang, P. Ng, X. Ma, R. Nallapati, and B. Xiang. Multi-passage bert: A globally normalized bert model for open-domain question answering. arXiv preprint arXiv:1908.08167, 2019.

責(zé)任編輯:xj

原文標(biāo)題:【NIPS 2020】通過文本壓縮,讓BERT支持長(zhǎng)文本

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 文本
    +關(guān)注

    關(guān)注

    0

    文章

    119

    瀏覽量

    17383
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22524

原文標(biāo)題:【NIPS 2020】通過文本壓縮,讓BERT支持長(zhǎng)文本

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    把樹莓派打造成識(shí)別文本的“神器”!

    在許多項(xiàng)目中,RaspberryPi被用作監(jiān)控?cái)z像頭或執(zhí)行機(jī)器學(xué)習(xí)任務(wù)。在這些場(chǎng)景中,圖像中經(jīng)常包含應(yīng)用程序感興趣的文本信息。我們希望提取這些信息并將其轉(zhuǎn)換,以便通過程序分析文本
    的頭像 發(fā)表于 03-25 09:30 ?348次閱讀
    把樹莓派打造成識(shí)別<b class='flag-5'>文本</b>的“神器”!

    ?VLM(視覺語言模型)?詳細(xì)解析

    的詳細(xì)解析: 1. 核心組成與工作原理 視覺編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺Transformer(ViT)。 語言模型 :處理文本輸入/輸出,如GPT、BERT等,部分模型
    的頭像 發(fā)表于 03-17 15:32 ?3155次閱讀
    ?VLM(視覺語言模型)?詳細(xì)解析

    飛凌RK3588開發(fā)板上部署DeepSeek-R1大模型的完整指南(一)

    DeepSeek作為國(guó)產(chǎn)AI大數(shù)據(jù)模型的代表,憑借其卓越的推理能力和高效的文本生成技術(shù),在全球人工智能領(lǐng)域引發(fā)廣泛關(guān)注。DeepSeek-R1作為該系列最新迭代版本,實(shí)現(xiàn)了長(zhǎng)文本處理效能躍遷、多模態(tài)擴(kuò)展規(guī)劃、嵌入式適配等技術(shù)維度的突破。
    的頭像 發(fā)表于 02-21 14:55 ?2435次閱讀
    飛凌RK3588開發(fā)板上部署DeepSeek-R1大模型的完整指南(一)

    BQ3588/BQ3576系列開發(fā)板深度融合DeepSeek-R1大模型

    DeepSeek 作為國(guó)產(chǎn) AI 大數(shù)據(jù)模型的杰出典范,以出色的推理能力和高效的文本生成技術(shù),在全球人工智能領(lǐng)域中備受矚目。DeepSeek-R1-distill-Qwen-7B 作為該系列的最新迭代版本,在長(zhǎng)文本處理效能、多模態(tài)擴(kuò)展規(guī)劃以及嵌入式適配等技術(shù)維度上實(shí)現(xiàn)了重
    的頭像 發(fā)表于 02-12 11:20 ?771次閱讀

    阿里云通義開源長(zhǎng)文本新模型Qwen2.5-1M

    近日,阿里云通義宣布了一項(xiàng)重大開源舉措,推出了支持100萬Tokens上下文的Qwen2.5-1M模型。這一新模型在處理長(zhǎng)文本任務(wù)中展現(xiàn)出了卓越的性能,穩(wěn)定超越了GPT-4o-mini
    的頭像 發(fā)表于 02-05 14:01 ?490次閱讀

    Linux三劍客之Sed:文本處理神器

    關(guān)于linux三劍客 grep,過濾關(guān)鍵字信息數(shù)據(jù)。主要是用于查文本內(nèi)的數(shù)據(jù) sed ,對(duì)文本數(shù)據(jù)進(jìn)行編輯,修改原文件內(nèi)容 awk,對(duì)文件數(shù)據(jù)過濾,提取,并且能實(shí)現(xiàn),格式化輸出 awk對(duì)文件數(shù)據(jù)處理
    的頭像 發(fā)表于 12-16 15:58 ?653次閱讀
    Linux三劍客之Sed:<b class='flag-5'>文本處理</b>神器

    如何使用自然語言處理分析文本數(shù)據(jù)

    使用自然語言處理(NLP)分析文本數(shù)據(jù)是一個(gè)復(fù)雜但系統(tǒng)的過程,涉及多個(gè)步驟和技術(shù)。以下是一個(gè)基本的流程,幫助你理解如何使用NLP來分析文本數(shù)據(jù): 1. 數(shù)據(jù)收集 收集文本數(shù)據(jù) :從各種
    的頭像 發(fā)表于 12-05 15:27 ?1448次閱讀

    圖紙模板中的文本變量

    “ ?文本變量和系統(tǒng)自帶的內(nèi)置變量,可以幫助工程師靈活、高效地配置標(biāo)題欄中的信息,而不用擔(dān)心模板中的文字對(duì)象被意外修改。 ? ” 文本變量的語法 文本變量以?${VARIABLENAME}?的方式
    的頭像 發(fā)表于 11-13 18:21 ?576次閱讀
    圖紙模板中的<b class='flag-5'>文本</b>變量

    如何在文本字段中使用上標(biāo)、下標(biāo)及變量

    在KiCad的任何文本字段中,都可以通過以下的方式實(shí)現(xiàn)上標(biāo)、下標(biāo)、上劃線以及顯示變量及字段值的描述: 文本變量“文本變量”可以在 原理圖設(shè)置->工程->文本變量 中設(shè)置。下圖中設(shè)置了一
    的頭像 發(fā)表于 11-12 12:23 ?559次閱讀
    如何在<b class='flag-5'>文本</b>字段中使用上標(biāo)、下標(biāo)及變量

    如何掌握Linux文本處理

    /from/sed_script: 從指定的文本中讀取處理腳本 -r: 使用擴(kuò)展正則表達(dá)式 sed命令選項(xiàng) 替換標(biāo)記 g:表示行內(nèi)全面替換 w:表示把行寫入一個(gè)文件 x:表示互換模式
    的頭像 發(fā)表于 11-10 13:40 ?471次閱讀

    M8020A J-BERT 高性能比特誤碼率測(cè)試儀

    M8020A 比特誤碼率測(cè)試儀 J-BERT M8020A 高性能 BERT 產(chǎn)品綜述 Keysight J-BERT M8020A 高性能比特誤碼率測(cè)試儀能夠快速、準(zhǔn)確地表征傳輸速率高達(dá) 16 或
    的頭像 發(fā)表于 08-21 17:13 ?459次閱讀

    AWG和BERT常見問題解答

    隨著信號(hào)的速率越來越高,調(diào)制格式越來越復(fù)雜,對(duì)測(cè)試儀器的性能要求也越來越高。是德科技也一直在推出業(yè)界領(lǐng)先的高帶寬、高采樣率的AWG和高性能的BERT
    的頭像 發(fā)表于 08-06 17:27 ?1191次閱讀

    llm模型有哪些格式

    Representations from Transformers):BERT是一種雙向預(yù)訓(xùn)練模型,通過大量文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,可以用于各種NLP任務(wù),如文本分類、問答、命名實(shí)體識(shí)別等。 b. GPT(
    的頭像 發(fā)表于 07-09 09:59 ?1326次閱讀

    llm模型和chatGPT的區(qū)別

    LLM(Large Language Model)是指大型語言模型,它們是一類使用深度學(xué)習(xí)技術(shù)構(gòu)建的自然語言處理(NLP)模型。LLM模型可以處理各種語言任務(wù),如文本生成、文本分類、機(jī)
    的頭像 發(fā)表于 07-09 09:55 ?1914次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)在文本分類領(lǐng)域的應(yīng)用

    在自然語言處理(NLP)領(lǐng)域,文本分類一直是一個(gè)重要的研究方向。隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡(jiǎn)稱CNN)在圖像識(shí)別領(lǐng)域取得了
    的頭像 發(fā)表于 07-01 16:25 ?1142次閱讀
    主站蜘蛛池模板: 激情综合网五月激情 | 欧美色欧美亚洲高清在线观看 | 欧美日韩一区二区三区毛片 | 一级特黄aa毛片免费观看 | 最新合集丨新片速递 | 天天爽天天 | 伊人久久大香线蕉观看 | 在线观看国产一级强片 | 亚洲一区免费观看 | 亚洲一区欧美一区 | 99亚洲精品卡2卡三卡4卡2卡 | 欧美一级精品高清在线观看 | 国产高清精品自在久久 | 调教双性学霸美人 | 午夜嘿嘿嘿 | 久久色婷婷| 成人免费午间影院在线观看 | 青草久草视频 | 黄视频网站入口 | 亚洲区中文字幕 | 一级特黄牲大片免费视频 | 女69女人poren25 | 欧美一级视频免费观看 | 夜夜骑日日射 | 又粗又大又猛又爽免费视频 | 女69女人poren25 | 99久久免费精品国产免费高清 | 免费看h网站 | 国产福利萌白酱喷水视频铁牛 | 亚洲午夜一区二区三区 | 国产性老妇女做爰在线 | 欧美人与动性行为网站免费 | 久草成人在线视频 | 欧美在线一区二区三区 | 色香淫欲| 日日碰狠狠添天天爽五月婷 | 美女中出视频 | 日日爽夜夜爽 | 奇米成人影视 | 午夜久久网 | 100000免费啪啪18免进 |