今天一起來看一篇騰訊和復旦大學合作的工作:MarkBERT: Marking Word Boundaries Improves Chinese BERT[1]
一句話概述:在 Token 中加入你感興趣的詞的邊界標記。
MarkBERT 不是基于詞的 BERT,依然是基于字,但巧妙地將「詞的邊界標記」信息融入模型。這樣可以統一處理任意詞,無論是不是 OOV。另外,MarkBERT 還有兩個額外的好處:
首先,在邊界標記上添加單詞級別的學習目標很方便,這是對傳統字符和句子級預訓練任務的補充;
其次,可以通過用 POS 標簽特定的標記替換通用標記來輕松合并更豐富的語義。
在 NER 任務上取得了 2 個點的提升,在文本分類、關鍵詞識別、語義相似任務上也取得了更好的精度。
這個簡單但有效的中文預訓練模型 MarkBERT,考慮了詞信息但沒有 OOV 問題。具體有以下優勢:
統一的方式處理常用詞和低頻詞,沒有 OOV 問題。
Marker 的引入允許設計詞級別的預訓練任務,這是對字級別的 MLM 和句子級別的 NSP 的補充。
容易擴展加入更多單詞語義(詞性、詞法等)。
預訓練階段有兩個任務:
MLM:對 Marker 也進行了 MASK,以便模型能學習到邊界知識。
替換詞檢測:人工替換一個詞,然后讓模型分辨標記前面的詞是不是正確的。
MarkBERT預訓練
MarkBERT
如下圖所示:
首先分詞,在詞中間插入特殊標記,這些標記也會被當做普通的字符處理。有位置,也會被 MASK,這樣編碼時就需要注意詞的邊界,而不是簡單地填充,MASK 預測任務變得更有挑戰(預測需要更好地理解單詞邊界)。這樣,模型依然是字符級別的,但它知道了單詞的邊界(因為單詞的信息是顯式給出的)。
替換詞檢測
具體而言,當一個詞被替換成混淆詞,標記應該做出「被替換」的預測,標簽為 False,否則為 True。
該損失函數會和 MLM 的損失函數加在一起作為多任務訓練過程。混淆詞來自同義詞或讀音相似的詞,通過這個任務,標記可以對上下文中的單詞跨度更敏感。使用 POS 做標記的模型稱為 MarkBERT-POS。
預訓練
MASK 的比例依然是 15%,30% 的時間不插入任何標記(原始的 BERT);50% 的時間執行 WWM 預測任務;其余時間執行 MLM 預測任務。
在插入標記中,30% 的時間將詞替換為基于讀音的混淆詞或基于同義詞的混淆詞,標記預測讀音混淆標記或同義詞混淆標記;其他時間標記預測正常單詞標記。為了避免不平衡標簽,只計算正常標記上 15% 的損失。
實驗
在 NER 任務上的效果如下表所示:
可以看到,效果提升還是很明顯的。
在三個任務上做了消融實驗:
MarkBERT-MLM:只有 MLM 任務
MarkBERT-rwd:在替換詞檢測時,分別移除近音詞或同義詞
MarkBERT-w/o:在下游任務微調時去掉 Marker(和原始 BERT 一樣用法)
結果如下表所示:
結論如下:
MarkBERT-MLM 在 NER 任務中獲得顯著提升,說明單詞邊界信息在細粒度任務中很重要。
不插入標記,MarkBERT-w/o 也達到了和 baseline 相近的效果,說明 MarkBERT 可以像 BERT 一樣使用。
對 NER 任務來說,插入標記依然重要,表明 MarkBERT 結構在學習需要這種細粒度表示的任務的單詞邊界方面是有效的。
討論
已有的中文 BERT 融入詞信息有兩個方面的策略:
在預訓練階段使用詞信息,但在下游任務上使用字符序列,如 Chinese-BERT-WWM,Lattice-BERT。
在下游任務中使用預訓練模型時使用單詞信息,如 WoBERT,AmBERT,Lichee。
另外在與實體相關的 NLU 任務,特別是關系分類中有探討插入標記的想法。給定一個主語實體和賓語實體,現有工作注入非類型標記或實體特定標記,并對實體之間的關系做出更好的預測。
這篇論文當時刷到時覺得真心不錯,方法很簡單但很巧妙,一下子解決了中文預訓練模型「詞」的處理,非常方便地就可以引入詞級別的任務,以及豐富的詞語義。其實,我們甚至可以只針對「部分感興趣的詞」添加標記,剩下的依然按字處理。
本文參考資料
[1]
MarkBERT: Marking Word Boundaries Improves Chinese BERT: https://arxiv.org/abs/2203.06378
審核編輯 :李倩
-
編碼
+關注
關注
6文章
969瀏覽量
55778 -
模型
+關注
關注
1文章
3521瀏覽量
50425
原文標題:MarkBERT:巧妙地將詞的邊界標記信息融入模型
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
PCB絲印極性標記的實用設計技巧

入行嵌入式難度大不大?
學硬件好還是學軟件好?
放大器電路原理及放大器電路圖內容詳解
JCMsuite應用:彎曲單模光纖
馬斯克明確表態:對收購TikTok不感興趣
2025年Next Token Prediction范式會統一多模態嗎

評論