在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何使用BERT模型進行抽取式摘要

深度學習自然語言處理 ? 來源:NLP工作站 ? 作者:NLP工作站 ? 2022-03-12 16:41 ? 次閱讀

寫?在前面

最近在梳理文本摘要相關內容,翻到一篇19年關于基于BERT模型進行抽取式摘要的老文「BertSum」,在這里分享給大家。該論文一開始掛在arXiv時,為《Fine-tune BERT for Extractive Summarization》,主要介紹了如何使用BERT模型進行抽取式(Extractive)摘要。
paper:https://arxiv.org/pdf/1903.10318.pdf
github:https://github.com/nlpyang/BertSum

后面,又發表于EMNLP2019,為《Text Summarization with Pretrained Encoders》,增加了生成式(抽象式,Abstractive)摘要部分,并對第一版論文進行了部分內容的補充與刪減

paper:https://aclanthology.org/D19-1387.pdf
github:https://github.com/nlpyang/PreSumm

介紹

文本摘要任務主要分為抽象式摘要(abstractive summarization)和抽取式摘要(extractive summarization)。在抽象式摘要中,目標摘要所包含的詞或短語會不在原文中,通常需要進行文本重寫等操作進行生成;而抽取式摘要,就是通過復制和重組文檔中最重要的內容(一般為句子)來形成摘要。那么如何獲取并選擇文檔中重要句子,就是抽取式摘要的關鍵。

傳統抽取式摘要方法包括Lead-3和TextRank,傳統深度學習方法一般采用LSTM或GRU模型進行重要句子的判斷與選擇,而本文采用預訓練語言模型BERT進行抽取式摘要。

模型結構BertSum模型

結構如下圖所示

主要由句子編碼層和摘要判斷層組成,其中,「句子編碼層」通過BERT模型獲取文檔中每個句子的句向量編碼,「摘要判斷層」通過三種不同的結構進行選擇判斷,為每個句子進行打分,最終選取最優的top-n個句子作為文檔摘要。

句子編碼層

由于BERT模型MLM預訓練機制,使得其輸出向量為每個token的向量;即使分隔符可以區分輸入的不同句子,但是僅有兩個標簽(句子A或句子B),與抽取式摘要需要分隔多個句子大不相同;因此對BERT模型的輸入進行了修改,如下:

將文檔中的每個句子前后均插入[CLS]和[SEP]標記,并將每個句子前的[CLS]標記進入模型后的輸出向量,作為該句子的句向量表征。例如:文檔為”我愛南京。我喜歡NLP。我學習摘要。“,輸入序列為”[CLS]我愛南京。[SEP][CLS]我喜歡NLP。[SEP][CLS]我學習摘要。[SEP]“

采用Segment Embeddings區分文檔中的多個句子,將奇數句子和偶數句子的Segment Embeddings分別設置為和,例如:文檔為,那么Segment Embeddings為。

摘要判斷層

從句子編碼層獲取文檔中每個句子的句向量后,構建了3種摘要判斷層,以通過獲取每個句子在文檔級特征下的重要性。對于每個句子,計算出最終的預測分數,模型的損失是相對于金標簽的二元交叉熵。

Simple Classifier,僅在BERT輸出上添加一個線性全連接層,并使用一個sigmoid函數獲得預測分數,如下:

Transformer,在BERT輸出后增加額外的Transformer層,進一步提取專注于摘要任務的文檔級特征,如下:

其中,為句子的句向量,,PosEmb函數為在句向量中增加位置信息函數,MHAtt函數為多頭注意力函數,為Transformer的層數。最后仍然接一個sigmoid函數的全連接層,

最終選擇為2。

LSTM,在BERT輸出增加額外的LSTM層,進一步提取專注于摘要任務的文檔級特征,如下:

其中,分別為遺忘門、輸入門和輸出門;分別為隱藏向量、記憶向量和輸出向量;分別為不同的layer normalization操作。最后仍然接一個sigmoid函數的全連接層,

實驗細節訓練集構建

由于目前文本摘要的數據大多為抽象式文本摘要數據集,不適合訓練抽取摘要模型。論文利用貪心算法構建每個文檔抽取式摘要對應的句子集合,即通過算法貪婪地選擇能使ROUGE分數最大化的句子集合。將選中的句子集合中的句子的標簽設為1,其余的句子為0。

模型預測

在模型預測階段,將文檔按照句子進行切分,采用BertSum模型獲取每個句子的得分,然后根據分數從高到低對這些句子進行排序,并選擇前3個句子作為摘要。

在句子選擇階段,采用Trigram Blocking機制來減少摘要的冗余,即對應當前已組成摘要S和侯選句子c,如果S和c直接存在tri-gram相同片段,則跳過句子c,也就是句子c不會增加在已組成摘要S中。

數據超出BERT限制

BERT模型由于最大長度為512,而現實中文檔長度常常會超出。在《Text Summarization with Pretrained Encoders》文中提到,在BERT模型中添加更多的位置嵌入來克服這個限制,并且位置嵌入是隨機初始化的,并在訓練時與其他參數同時進行微調。

實驗結果主要對比了LEAD、REFRESH、NEUSUM、PGN以及DCA方法,較當時方法,該論文效果確實不錯,如下表所示,

在三種摘要判斷層中,Transformer的效果最優。并且進行了進一步的消融實驗,發現采用不同的Segment Embeddings會給結果帶來一些提升,但是Trigram Blocking機制更為關鍵,具體如下表所示。

總結個人認為該論文是一篇較為經典的BERT模型應用論文,當時2019年看的時候就進行了嘗試,并且也將其用到了一些項目中。

放假ing,但是也要學習。

原文標題:BertSum-基于BERT模型的抽取式文本摘要

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

審核編輯:湯梓紅


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 結構
    +關注

    關注

    1

    文章

    117

    瀏覽量

    21654
  • 函數
    +關注

    關注

    3

    文章

    4346

    瀏覽量

    63012
  • 模型
    +關注

    關注

    1

    文章

    3340

    瀏覽量

    49267

原文標題:BertSum-基于BERT模型的抽取式文本摘要

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    自動識別事件類別的中文事件抽取技術研究

    【作者】:許紅磊;陳錦秀;周昌樂;林如琦;楊肖方;【來源】:《心智與計算》2010年01期【摘要】:本文提出一種新的中文事件抽取中自動識別事件類別的模型,即:基于事件實例句子的分類模型
    發表于 04-24 09:55

    基于XML的WEB信息抽取模型設計

    對現有的信息抽取技術和XML 技術加以研究,在此基礎上提出了適合XML 的通用的web 信息抽取模型,它能夠把Web 上的數據抽取出來整合到指定模式的XML 文檔中去,最大限度地實現
    發表于 12-22 13:56 ?17次下載

    Google最強模型BERT出爐

    在不少人看來,BERT 對自然語言處理的研究具有里程碑的意義。
    的頭像 發表于 10-27 10:37 ?5007次閱讀

    BERT模型的PyTorch實現

    BertModel是一個基本的BERT Transformer模型,包含一個summed token、位置和序列嵌入層,然后是一系列相同的self-attention blocks(BERT-base是12個blocks,
    的頭像 發表于 11-13 09:12 ?1.4w次閱讀

    簡述基于神經網絡的抽取摘要方法

    將文本摘要建模為序列標注任務的關鍵在于獲得句子的表示,即將句子編碼為一個向量,根據該向量進行二分類任務,例如 AAAI17 中,Nallapati 等人[10]的工作,使用雙向 GRU 分別建模詞語
    的頭像 發表于 04-01 10:23 ?7839次閱讀
    簡述基于神經網絡的<b class='flag-5'>抽取</b><b class='flag-5'>式</b><b class='flag-5'>摘要</b>方法

    XLNet和Bert比,有什么不同?要進行改進嗎?

    本文首先講講我對XLNet和Bert比,有什么異同?有什么模型方面的改進?的理解
    的頭像 發表于 07-26 14:39 ?5197次閱讀
    XLNet和<b class='flag-5'>Bert</b>比,有什么不同?要<b class='flag-5'>進行</b>改進嗎?

    圖解BERT預訓練模型

    BERT的發布是這個領域發展的最新的里程碑之一,這個事件標志著NLP 新時代的開始。BERT模型打破了基于語言處理的任務的幾個記錄。在 BERT 的論文發布后不久,這個團隊還公開了
    的頭像 發表于 11-24 10:08 ?3747次閱讀

    模型NLP事件抽取方法總結

    (Survey) 模型(Models) 數據集(Datasets) 挑戰與展望(Future Research Challenges) 事件抽取 2020 1、 Reading the Manual
    的頭像 發表于 12-31 10:19 ?1w次閱讀
    <b class='flag-5'>模型</b>NLP事件<b class='flag-5'>抽取</b>方法總結

    NLP:關系抽取到底在乎什么

    關系抽取到底在乎什么?這是來自EMNLP20上清華大學劉知遠團隊的“靈魂發問”~ 關系抽取是每一位NLPer都很熟知的任務,特別是基于BERT的神經關系抽取
    的頭像 發表于 01-07 14:46 ?5762次閱讀

    融合BERT詞向量與TextRank的關鍵詞抽取方法

    結合文檔本身的結構信息與外部詞語的語義信息,提出一種融合BERT詞向量與 Textrank的關鍵詞抽取方法。在基于網絡圖的 Textrank方法基礎上,引入語義差異性并利用BERT詞向量加權方式優化
    發表于 03-21 09:55 ?18次下載
    融合<b class='flag-5'>BERT</b>詞向量與TextRank的關鍵詞<b class='flag-5'>抽取</b>方法

    抽取摘要方法中如何合理設置抽取單元?

    的核心問題。抽取摘要則是文本摘要技術中效果穩定,實現簡單的一類方法,本文結合COLING 2020中抽取
    的頭像 發表于 05-03 18:23 ?1689次閱讀
    <b class='flag-5'>抽取</b><b class='flag-5'>式</b><b class='flag-5'>摘要</b>方法中如何合理設置<b class='flag-5'>抽取</b>單元?

    基于BERT+Bo-LSTM+Attention的病歷短文分類模型

    中醫逐漸成為熱點,中醫病歷文本中包含著巨大而寶貴的醫療信息。而在中醫病歷文本挖掘和利用方面,一直面臨中醫病歷文本利用率低、抽取有效信息并對信息文本進行分類的難度大的問題。針對這一問題,研究一種對中醫
    發表于 04-26 14:30 ?13次下載
    基于<b class='flag-5'>BERT</b>+Bo-LSTM+Attention的病歷短文分類<b class='flag-5'>模型</b>

    基于BERT的中文科技NLP預訓練模型

    深度學習模型應用于自然語言處理任務時依賴大型、高質量的人工標注數據集。為降低深度學習模型對大型數據集的依賴,提出一種基于BERT的中文科技自然語言處理預訓練模型 ALICE。通過對遮罩
    發表于 05-07 10:08 ?14次下載

    基于Zero-Shot的多語言抽取文本摘要模型

    抽取文本摘要目前在英文上已經取得了很好的性能,這主要得益于大規模預訓練語言模型和豐富的標注語料。但是對于其他小語種語言,目前很難得到大規模的標注數據。
    的頭像 發表于 07-08 10:49 ?1583次閱讀

    Instruct-UIE:信息抽取統一大模型

    Instruct-UIE 統一了信息抽取任務訓練方法,可以融合不同類型任務以及不同的標注規范,統一進行訓練。針對新的任務需求,僅需要少量的數據進行增量學習,即可完成
    的頭像 發表于 04-25 10:46 ?1814次閱讀
    Instruct-UIE:信息<b class='flag-5'>抽取</b>統一大<b class='flag-5'>模型</b>
    主站蜘蛛池模板: 二区三区视频 | 天堂网最新 | 日本免费一区二区三区视频 | 在线亚洲日产一区二区 | 五月天综合在线 | 四虎影院最新地址 | 综合欧美一区二区三区 | 色婷婷99综合久久久精品 | 国产成人在线网址 | 毛片网站网址 | 夜夜橹橹网站夜夜橹橹 | 全部在线播放免费毛片 | tom影院亚洲国产日本一区 | 国产精品丝袜 | 久久伊人色 | 久久成人国产 | 亚洲ol| 永久手机看片福利盒子 | 香蕉视频在线观看国产 | 四虎影院官网 | 涩狠狠狠狠色 | 免费黄色成人 | 人人干干人人 | 日韩精品一区二区在线观看 | 午夜精品福利影院 | 免费啪视频在线观看免费的 | 成人午夜免费剧场 | 日韩怡红院 | 桃桃酱无缝丝袜在线播放 | 亚洲理论片在线观看 | 中文天堂最新版资源新版天堂资源 | 在线综合网 | 五月桃花网婷婷亚洲综合 | 国产免费爽爽视频免费可以看 | 天堂电影免费在线资源 | 久久免费精品 | 在线观看亚洲一区 | 四虎最新永久在线精品免费 | 天天爽夜夜爽人人爽免费 | 亚洲男人的天堂久久香蕉 | 久久久综合视频 |