91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

在Token中加入你感興趣的詞的邊界標記

深度學習自然語言處理 ? 來源:NewBeeNLP ? 作者:h1654155273.8628 ? 2022-07-13 14:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天一起來看一篇騰訊和復旦大學合作的工作:MarkBERT: Marking Word Boundaries Improves Chinese BERT[1]

一句話概述:在 Token 中加入你感興趣的詞的邊界標記。

MarkBERT 不是基于詞的 BERT,依然是基于字,但巧妙地將「詞的邊界標記」信息融入模型。這樣可以統一處理任意詞,無論是不是 OOV。另外,MarkBERT 還有兩個額外的好處:

首先,在邊界標記上添加單詞級別的學習目標很方便,這是對傳統字符和句子級預訓練任務的補充;

其次,可以通過用 POS 標簽特定的標記替換通用標記來輕松合并更豐富的語義。

在 NER 任務上取得了 2 個點的提升,在文本分類、關鍵詞識別、語義相似任務上也取得了更好的精度。

這個簡單但有效的中文預訓練模型 MarkBERT,考慮了詞信息但沒有 OOV 問題。具體有以下優勢:

統一的方式處理常用詞和低頻詞,沒有 OOV 問題。

Marker 的引入允許設計詞級別的預訓練任務,這是對字級別的 MLM 和句子級別的 NSP 的補充。

容易擴展加入更多單詞語義(詞性、詞法等)。

預訓練階段有兩個任務:

MLM:對 Marker 也進行了 MASK,以便模型能學習到邊界知識。

替換詞檢測:人工替換一個詞,然后讓模型分辨標記前面的詞是不是正確的。

MarkBERT預訓練

MarkBERT

如下圖所示:

f641312e-026d-11ed-ba43-dac502259ad0.jpg

首先分詞,在詞中間插入特殊標記,這些標記也會被當做普通的字符處理。有位置,也會被 MASK,這樣編碼時就需要注意詞的邊界,而不是簡單地填充,MASK 預測任務變得更有挑戰(預測需要更好地理解單詞邊界)。這樣,模型依然是字符級別的,但它知道了單詞的邊界(因為單詞的信息是顯式給出的)。

替換詞檢測

具體而言,當一個詞被替換成混淆詞,標記應該做出「被替換」的預測,標簽為 False,否則為 True。

該損失函數會和 MLM 的損失函數加在一起作為多任務訓練過程。混淆詞來自同義詞或讀音相似的詞,通過這個任務,標記可以對上下文中的單詞跨度更敏感。使用 POS 做標記的模型稱為 MarkBERT-POS。

預訓練

MASK 的比例依然是 15%,30% 的時間不插入任何標記(原始的 BERT);50% 的時間執行 WWM 預測任務;其余時間執行 MLM 預測任務。

在插入標記中,30% 的時間將詞替換為基于讀音的混淆詞或基于同義詞的混淆詞,標記預測讀音混淆標記或同義詞混淆標記;其他時間標記預測正常單詞標記。為了避免不平衡標簽,只計算正常標記上 15% 的損失。

實驗

在 NER 任務上的效果如下表所示:

f662f6d8-026d-11ed-ba43-dac502259ad0.jpg

可以看到,效果提升還是很明顯的。

在三個任務上做了消融實驗:

MarkBERT-MLM:只有 MLM 任務

MarkBERT-rwd:在替換詞檢測時,分別移除近音詞或同義詞

MarkBERT-w/o:在下游任務微調時去掉 Marker(和原始 BERT 一樣用法)

結果如下表所示:

f68f8ba8-026d-11ed-ba43-dac502259ad0.jpg

結論如下:

MarkBERT-MLM 在 NER 任務中獲得顯著提升,說明單詞邊界信息在細粒度任務中很重要。

不插入標記,MarkBERT-w/o 也達到了和 baseline 相近的效果,說明 MarkBERT 可以像 BERT 一樣使用。

對 NER 任務來說,插入標記依然重要,表明 MarkBERT 結構在學習需要這種細粒度表示的任務的單詞邊界方面是有效的。

討論

已有的中文 BERT 融入詞信息有兩個方面的策略:

在預訓練階段使用詞信息,但在下游任務上使用字符序列,如 Chinese-BERT-WWM,Lattice-BERT。

在下游任務中使用預訓練模型時使用單詞信息,如 WoBERT,AmBERT,Lichee。

另外在與實體相關的 NLU 任務,特別是關系分類中有探討插入標記的想法。給定一個主語實體和賓語實體,現有工作注入非類型標記或實體特定標記,并對實體之間的關系做出更好的預測。

f6a46f64-026d-11ed-ba43-dac502259ad0.jpg

這篇論文當時刷到時覺得真心不錯,方法很簡單但很巧妙,一下子解決了中文預訓練模型「詞」的處理,非常方便地就可以引入詞級別的任務,以及豐富的詞語義。其實,我們甚至可以只針對「部分感興趣的詞」添加標記,剩下的依然按字處理。

本文參考資料

[1]

MarkBERT: Marking Word Boundaries Improves Chinese BERT: https://arxiv.org/abs/2203.06378

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼
    +關注

    關注

    6

    文章

    969

    瀏覽量

    55778
  • 模型
    +關注

    關注

    1

    文章

    3521

    瀏覽量

    50425

原文標題:MarkBERT:巧妙地將詞的邊界標記信息融入模型

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    PCB絲印極性標記的實用設計技巧

    標記方式也讓使用者 難以確定長線一側焊盤是正極還是負極 。此外,實際繪制過程中,兩側絲印線可能僅存在細微長度差異,這無疑進一步加大了使用者判斷極性的難度,削弱了絲印標記應有的功能。 3、缺少絲印
    發表于 07-09 11:43

    自行車無線電子變速系統

    感興趣的各位工程朋友可以電話或留言! 15671137831蘇先生
    發表于 06-10 19:28

    入行嵌入式難度大不大?

    技術的不斷進步,嵌入式工程師需要不斷學習新的技術,如人工智能、物聯網等。同時,提升自己的項目經驗和解決問題的能力,也有助于提高薪資待遇和職業發展空間。 (四)感興趣入行 如果對嵌入式領域感興趣,那么
    發表于 04-17 10:14

    智慧消防物聯網平臺

    本人想建立一個物聯網智慧消防平臺,想找懂技術的有合伙意愿的共同投資開發,有感興趣的聯系我13633612945
    發表于 04-15 22:18

    學硬件好還是學軟件好?

    ,如電路板、處理器、內存等。硬件工程師通常負責設計、測試和維護這些設備。如果對電子工程、物理或集成電路設計等領域感興趣,那么學習硬件可能是一個不錯的選擇。硬件行業的就業機會通常與電子產品制造、通信設備
    發表于 04-07 15:27

    Token經濟,風起隴東

    以萬全之力,筑成東數西算的token經濟走廊
    的頭像 發表于 04-01 09:46 ?1899次閱讀
    <b class='flag-5'>Token</b>經濟,風起隴東

    放大器電路原理及放大器電路圖內容詳解

    該文檔為放大器電路原理及放大器電路圖內容詳解資料,講解的還不錯,感興趣的可以下載看看~ (如果內容有幫助可以關注、點贊、評論支持一下哦~)
    發表于 03-20 11:55

    JCMsuite應用:彎曲單模光纖

    )。 計算受限于project.jcmp文件中SelectionCriterion感興趣的模式。 SelectionCriterion { NearGuess { Guess = 1.4513
    發表于 02-12 08:55

    馬斯克明確表態:對收購TikTok不感興趣

    近日,馬斯克德國一場技術峰會的線上視頻中,首次公開表達了他對收購TikTok的立場——“不感興趣”。這一表態迅速引發了業界的廣泛關注和討論。 峰會視頻連線環節,馬斯克明確表示:“我沒有參與
    的頭像 發表于 02-10 09:53 ?516次閱讀

    2025年Next Token Prediction范式會統一多模態嗎

    各種模態的信息(如圖像、視頻和音頻片段)分解為最小的單元序列(Token),以便 Transformer 結構為基礎的 NTP 模型學習。 Tokenization 方法可以分為離散(Discrete
    的頭像 發表于 01-21 10:11 ?477次閱讀
    2025年Next <b class='flag-5'>Token</b> Prediction范式會統一多模態嗎

    定位模組也能打電話?Air201帶你快速實現!

    今天特別分享VoLTE通話功能示例,感興趣的朋友一起來學。
    的頭像 發表于 12-14 16:25 ?748次閱讀
    定位模組也能打電話?Air201帶你快速實現!

    如何選擇適合自己的編程語言

    。 1. 確定目標和興趣 選擇編程語言之前,首先要明確自己的目標和興趣。這包括你想要開發什么類型的項目,以及對哪些技術領域感興趣。例如,
    的頭像 發表于 11-15 09:37 ?1922次閱讀

    MS41959——低噪聲、256 細分、微步進電機驅動

    低噪聲、256 細分、微步進電機驅動,有方案,提供FAE,感興趣的可以看看
    的頭像 發表于 10-14 17:08 ?1227次閱讀
    MS41959——低噪聲、256 細分、微步進電機驅動

    TXC 產品簡介-Xterniti OCXO

    學習中心TXC始終專注于技術創新和突破。通過不斷的研發,我們不斷推出新產品和新思路。無論是對產品使用、應用探索還是理論研究感興趣一定會在這里找到感興趣的東西。產品簡介-Xtern
    發表于 09-20 10:39 ?0次下載
    主站蜘蛛池模板: 双性人皇上被c到哭 | 日本免费网站观看 | 国产黄色录像视频 | 嫩草影院播放地址一二三 | 男人日女人视频在线观看 | 午夜影院0606 | 欧美亚洲天堂 | 色多多a | 婷婷免费高清视频在线观看 | 亚洲视频一二 | www干| 欧美黄色xxx | 全黄毛片 | 午夜资源网 | 久久久久久综合 | 伊人久久大香线蕉影院95 | 97影院理论片在线观看 | 国产农村妇女毛片精品久久久 | 男人j进女人j视频 | 国产亚洲精品aa在线观看 | 小草影院亚洲私人影院 | 天天综合天天射 | 伊人成人在线 | 美女下面小内内的沟 | 免费一看一级毛片全播放 | 巨乳色最新网址 | 五月激情综合丁香色婷婷 | 狠狠色欧美亚洲狠狠色www | 日韩在线视频一区 | 国产色综合天天综合网 | 性色在线播放 | 伊人久久大香线蕉资源 | 在线观看日本免费不卡 | 国产成人精品视频一区二区不卡 | 一区二区三区四区电影 | 国产重口老太和小伙乱视频 | 视频色版| 色中色在线视频 | 欧美色操 | 天天干天天透 | 手机看片1024久久 |