欢乐颂第一季,玄幻小说完本,欢乐颂小说在线阅读

今天一起來看一篇騰訊和復旦大學合作的工作：MarkBERT: Marking Word Boundaries Improves Chinese BERT[1]

一句話概述：在 Token 中加入你感興趣的詞的邊界標記。

MarkBERT 不是基于詞的 BERT，依然是基于字，但巧妙地將「詞的邊界標記」信息融入模型。這樣可以統一處理任意詞，無論是不是 OOV。另外，MarkBERT 還有兩個額外的好處：

首先，在邊界標記上添加單詞級別的學習目標很方便，這是對傳統字符和句子級預訓練任務的補充；

其次，可以通過用 POS 標簽特定的標記替換通用標記來輕松合并更豐富的語義。

在 NER 任務上取得了 2 個點的提升，在文本分類、關鍵詞識別、語義相似任務上也取得了更好的精度。

這個簡單但有效的中文預訓練模型 MarkBERT，考慮了詞信息但沒有 OOV 問題。具體有以下優勢：

統一的方式處理常用詞和低頻詞，沒有 OOV 問題。

Marker 的引入允許設計詞級別的預訓練任務，這是對字級別的 MLM 和句子級別的 NSP 的補充。

容易擴展加入更多單詞語義（詞性、詞法等）。

預訓練階段有兩個任務：

MLM：對 Marker 也進行了 MASK，以便模型能學習到邊界知識。

替換詞檢測：人工替換一個詞，然后讓模型分辨標記前面的詞是不是正確的。

MarkBERT預訓練

MarkBERT

如下圖所示：

首先分詞，在詞中間插入特殊標記，這些標記也會被當做普通的字符處理。有位置，也會被 MASK，這樣編碼時就需要注意詞的邊界，而不是簡單地填充，MASK 預測任務變得更有挑戰（預測需要更好地理解單詞邊界）。這樣，模型依然是字符級別的，但它知道了單詞的邊界（因為單詞的信息是顯式給出的）。

替換詞檢測

具體而言，當一個詞被替換成混淆詞，標記應該做出「被替換」的預測，標簽為 False，否則為 True。

該損失函數會和 MLM 的損失函數加在一起作為多任務訓練過程。混淆詞來自同義詞或讀音相似的詞，通過這個任務，標記可以對上下文中的單詞跨度更敏感。使用 POS 做標記的模型稱為 MarkBERT-POS。

預訓練

MASK 的比例依然是 15%，30% 的時間不插入任何標記（原始的 BERT）；50% 的時間執行 WWM 預測任務；其余時間執行 MLM 預測任務。

在插入標記中，30% 的時間將詞替換為基于讀音的混淆詞或基于同義詞的混淆詞，標記預測讀音混淆標記或同義詞混淆標記；其他時間標記預測正常單詞標記。為了避免不平衡標簽，只計算正常標記上 15% 的損失。

實驗

在 NER 任務上的效果如下表所示：

可以看到，效果提升還是很明顯的。

在三個任務上做了消融實驗：

MarkBERT-MLM：只有 MLM 任務

MarkBERT-rwd：在替換詞檢測時，分別移除近音詞或同義詞

MarkBERT-w/o：在下游任務微調時去掉 Marker（和原始 BERT 一樣用法）

結果如下表所示：

結論如下：

MarkBERT-MLM 在 NER 任務中獲得顯著提升，說明單詞邊界信息在細粒度任務中很重要。

不插入標記，MarkBERT-w/o 也達到了和 baseline 相近的效果，說明 MarkBERT 可以像 BERT 一樣使用。

對 NER 任務來說，插入標記依然重要，表明 MarkBERT 結構在學習需要這種細粒度表示的任務的單詞邊界方面是有效的。

討論

已有的中文 BERT 融入詞信息有兩個方面的策略：

在預訓練階段使用詞信息，但在下游任務上使用字符序列，如 Chinese-BERT-WWM，Lattice-BERT。

在下游任務中使用預訓練模型時使用單詞信息，如 WoBERT，AmBERT，Lichee。

另外在與實體相關的 NLU 任務，特別是關系分類中有探討插入標記的想法。給定一個主語實體和賓語實體，現有工作注入非類型標記或實體特定標記，并對實體之間的關系做出更好的預測。

這篇論文當時刷到時覺得真心不錯，方法很簡單但很巧妙，一下子解決了中文預訓練模型「詞」的處理，非常方便地就可以引入詞級別的任務，以及豐富的詞語義。其實，我們甚至可以只針對「部分感興趣的詞」添加標記，剩下的依然按字處理。

本文參考資料

[1]

MarkBERT: Marking Word Boundaries Improves Chinese BERT: https://arxiv.org/abs/2203.06378

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

編碼

編碼

+關注

關注
6

文章
969

瀏覽量
55778
模型

模型

+關注

關注
1

文章
3521

瀏覽量
50425

原文標題：MarkBERT：巧妙地將詞的邊界標記信息融入模型

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

搜索歷史

在Token中加入你感興趣的詞的邊界標記

評論