在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

在Token中加入你感興趣的詞的邊界標記

深度學習自然語言處理 ? 來源:NewBeeNLP ? 作者:h1654155273.8628 ? 2022-07-13 14:33 ? 次閱讀

今天一起來看一篇騰訊和復旦大學合作的工作:MarkBERT: Marking Word Boundaries Improves Chinese BERT[1]

一句話概述:在 Token 中加入你感興趣的詞的邊界標記。

MarkBERT 不是基于詞的 BERT,依然是基于字,但巧妙地將「詞的邊界標記」信息融入模型。這樣可以統(tǒng)一處理任意詞,無論是不是 OOV。另外,MarkBERT 還有兩個額外的好處:

首先,在邊界標記上添加單詞級別的學習目標很方便,這是對傳統(tǒng)字符和句子級預訓練任務的補充;

其次,可以通過用 POS 標簽特定的標記替換通用標記來輕松合并更豐富的語義。

在 NER 任務上取得了 2 個點的提升,在文本分類、關鍵詞識別、語義相似任務上也取得了更好的精度。

這個簡單但有效的中文預訓練模型 MarkBERT,考慮了詞信息但沒有 OOV 問題。具體有以下優(yōu)勢:

統(tǒng)一的方式處理常用詞和低頻詞,沒有 OOV 問題。

Marker 的引入允許設計詞級別的預訓練任務,這是對字級別的 MLM 和句子級別的 NSP 的補充。

容易擴展加入更多單詞語義(詞性、詞法等)。

預訓練階段有兩個任務:

MLM:對 Marker 也進行了 MASK,以便模型能學習到邊界知識。

替換詞檢測:人工替換一個詞,然后讓模型分辨標記前面的詞是不是正確的。

MarkBERT預訓練

MarkBERT

如下圖所示:

f641312e-026d-11ed-ba43-dac502259ad0.jpg

首先分詞,在詞中間插入特殊標記,這些標記也會被當做普通的字符處理。有位置,也會被 MASK,這樣編碼時就需要注意詞的邊界,而不是簡單地填充,MASK 預測任務變得更有挑戰(zhàn)(預測需要更好地理解單詞邊界)。這樣,模型依然是字符級別的,但它知道了單詞的邊界(因為單詞的信息是顯式給出的)。

替換詞檢測

具體而言,當一個詞被替換成混淆詞,標記應該做出「被替換」的預測,標簽為 False,否則為 True。

該損失函數(shù)會和 MLM 的損失函數(shù)加在一起作為多任務訓練過程。混淆詞來自同義詞或讀音相似的詞,通過這個任務,標記可以對上下文中的單詞跨度更敏感。使用 POS 做標記的模型稱為 MarkBERT-POS。

預訓練

MASK 的比例依然是 15%,30% 的時間不插入任何標記(原始的 BERT);50% 的時間執(zhí)行 WWM 預測任務;其余時間執(zhí)行 MLM 預測任務。

在插入標記中,30% 的時間將詞替換為基于讀音的混淆詞或基于同義詞的混淆詞,標記預測讀音混淆標記或同義詞混淆標記;其他時間標記預測正常單詞標記。為了避免不平衡標簽,只計算正常標記上 15% 的損失。

實驗

在 NER 任務上的效果如下表所示:

f662f6d8-026d-11ed-ba43-dac502259ad0.jpg

可以看到,效果提升還是很明顯的。

在三個任務上做了消融實驗:

MarkBERT-MLM:只有 MLM 任務

MarkBERT-rwd:在替換詞檢測時,分別移除近音詞或同義詞

MarkBERT-w/o:在下游任務微調(diào)時去掉 Marker(和原始 BERT 一樣用法)

結果如下表所示:

f68f8ba8-026d-11ed-ba43-dac502259ad0.jpg

結論如下:

MarkBERT-MLM 在 NER 任務中獲得顯著提升,說明單詞邊界信息在細粒度任務中很重要。

不插入標記,MarkBERT-w/o 也達到了和 baseline 相近的效果,說明 MarkBERT 可以像 BERT 一樣使用。

對 NER 任務來說,插入標記依然重要,表明 MarkBERT 結構在學習需要這種細粒度表示的任務的單詞邊界方面是有效的。

討論

已有的中文 BERT 融入詞信息有兩個方面的策略:

在預訓練階段使用詞信息,但在下游任務上使用字符序列,如 Chinese-BERT-WWM,Lattice-BERT。

在下游任務中使用預訓練模型時使用單詞信息,如 WoBERT,AmBERT,Lichee。

另外在與實體相關的 NLU 任務,特別是關系分類中有探討插入標記的想法。給定一個主語實體和賓語實體,現(xiàn)有工作注入非類型標記或?qū)嶓w特定標記,并對實體之間的關系做出更好的預測。

f6a46f64-026d-11ed-ba43-dac502259ad0.jpg

這篇論文當時刷到時覺得真心不錯,方法很簡單但很巧妙,一下子解決了中文預訓練模型「詞」的處理,非常方便地就可以引入詞級別的任務,以及豐富的詞語義。其實,我們甚至可以只針對「部分感興趣的詞」添加標記,剩下的依然按字處理。

本文參考資料

[1]

MarkBERT: Marking Word Boundaries Improves Chinese BERT: https://arxiv.org/abs/2203.06378

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 編碼
    +關注

    關注

    6

    文章

    959

    瀏覽量

    54998
  • 模型
    +關注

    關注

    1

    文章

    3392

    瀏覽量

    49351

原文標題:MarkBERT:巧妙地將詞的邊界標記信息融入模型

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    JCMsuite應用:彎曲單模光纖

    )。 計算受限于project.jcmp文件中SelectionCriterion感興趣的模式。 SelectionCriterion { NearGuess { Guess = 1.4513
    發(fā)表于 02-12 08:55

    馬斯克明確表態(tài):對收購TikTok不感興趣

    近日,馬斯克德國一場技術峰會的線上視頻中,首次公開表達了他對收購TikTok的立場——“不感興趣”。這一表態(tài)迅速引發(fā)了業(yè)界的廣泛關注和討論。 峰會視頻連線環(huán)節(jié),馬斯克明確表示:“我沒有參與
    的頭像 發(fā)表于 02-10 09:53 ?143次閱讀

    2025年Next Token Prediction范式會統(tǒng)一多模態(tài)嗎

    各種模態(tài)的信息(如圖像、視頻和音頻片段)分解為最小的單元序列(Token),以便 Transformer 結構為基礎的 NTP 模型學習。 Tokenization 方法可以分為離散(Discrete
    的頭像 發(fā)表于 01-21 10:11 ?114次閱讀
    2025年Next <b class='flag-5'>Token</b> Prediction范式會統(tǒng)一多模態(tài)嗎

    定位模組也能打電話?Air201帶你快速實現(xiàn)!

    今天特別分享VoLTE通話功能示例,感興趣的朋友一起來學。
    的頭像 發(fā)表于 12-14 16:25 ?400次閱讀
    定位模組也能打電話?Air201帶你快速實現(xiàn)!

    如何選擇適合自己的編程語言

    。 1. 確定目標和興趣 選擇編程語言之前,首先要明確自己的目標和興趣。這包括你想要開發(fā)什么類型的項目,以及對哪些技術領域感興趣。例如,
    的頭像 發(fā)表于 11-15 09:37 ?755次閱讀

    TXC 產(chǎn)品簡介-Xterniti OCXO

    學習中心TXC始終專注于技術創(chuàng)新和突破。通過不斷的研發(fā),我們不斷推出新產(chǎn)品和新思路。無論是對產(chǎn)品使用、應用探索還是理論研究感興趣一定會在這里找到感興趣的東西。產(chǎn)品簡介-Xtern
    發(fā)表于 09-20 10:39 ?0次下載

    目標檢測與圖像識別的區(qū)別在哪

    檢測(Object Detection)是指在圖像或視頻中識別并定位感興趣的目標,通常包括目標的類別和位置。目標檢測的目的是找出圖像中所有感興趣的目標,并為每個目標分配一個邊界框(bounding box)和類別標簽。 圖像識別
    的頭像 發(fā)表于 07-17 09:51 ?1152次閱讀

    ESP32-S3 AT是否支持SPI接口?

    對 ESP32-S3 AT 感興趣,但是不確定是否支持 SPI 接口。
    發(fā)表于 06-27 06:06

    如果要填報電子專業(yè),這些問題最好提前知道(附院校排名名單)

    填報電子專業(yè),這些問題最好提前知道:1、首先,興趣很重要,如果感興趣就做不好。電子專業(yè)可能以后經(jīng)常會跟各種儀器工具打交道,如果
    的頭像 發(fā)表于 06-22 08:11 ?362次閱讀
    如果<b class='flag-5'>你</b>要填報電子專業(yè),這些問題最好提前知道(附院校排名名單)

    請問如何在PSoC Creator中加入USB?

    如何在 PSoC Creator 中加入 USB?
    發(fā)表于 05-20 06:43

    labview屏幕找圖,返回找到的位置XY坐標

    CheckSUM值。 圖中的截圖按鈕點擊后可截取屏幕上需要的任意位置,盡量只選擇感興趣的區(qū)域,保存為.bmp格式的圖片到路徑。選擇路徑后點擊找圖按鈕即可實現(xiàn)找圖。也有屏幕找色,OCR,窗口句柄等子vi,感興趣的私聊。
    發(fā)表于 05-11 08:59

    華為P70新款型號或?qū)l(fā)布,用戶可先登記感興趣機型

    2023年,華為推出Mate 60系列新款手機,重新回歸高端智能手機市場,引發(fā)廣泛關注。蘋果iPhone在華銷量下滑亦被歸因于此。
    的頭像 發(fā)表于 04-13 09:23 ?801次閱讀

    STM32L011F4Ukeil5中加入dsp庫后報錯的原因?

    芯片STM32L011F4U,CubeMX生成的HAL庫,開發(fā)環(huán)keil5中加入路徑DriversCMSISDSP_LibSourceTransformFunctions中文件arm_cfft_f32.c,和庫文件arm_cortexM0l_math.lib報錯。
    發(fā)表于 04-12 08:15

    APP程序中加入__set_FAULTMASK(1),通過bootloader下載后跳轉(zhuǎn)APP會卡死的原因?

    為什么我APP程序中加入__set_FAULTMASK(1);NVIC_SystemReset(); 生成BIN文件,然后通過bootloader下載后 跳轉(zhuǎn)APP會卡死, 但是把
    發(fā)表于 04-07 07:40

    激光打標機塑料行業(yè)的高精度標記

    隨著科技的不斷發(fā)展,激光打標機塑料行業(yè)中的應用越來越廣泛。這種高精度的標記技術為塑料產(chǎn)品提供了持久、清晰、可追溯的標識,滿足了生產(chǎn)過程中的各種需求。首先,激光打標機具有高精度的標記能力。這種技術
    的頭像 發(fā)表于 02-29 16:13 ?449次閱讀
    激光打標機<b class='flag-5'>在</b>塑料行業(yè)的高精度<b class='flag-5'>標記</b>
    主站蜘蛛池模板: www四虎影院 | 好大好硬好长好爽a网站 | 男人j进女人j的一进一出视频 | 最近2018年中文字幕在线 | 日本不卡专区 | 成人三级电影在线观看 | 都市激情综合网 | 很黄很暴力 很污秽的小说 很黄很黄叫声床戏免费视频 | 日韩成人毛片高清视频免费看 | 操狠狠| 91大神在线精品视频一区 | 亚洲综合一二三区 | 午夜视频免费观看 | 久久天天躁狠狠躁夜夜呲 | 综合五月天堂 | 上课被同桌摸下面做羞羞 | 亚洲电影在线播放 | 成人涩涩网站 | 黄色大片a级 | 成年人视频黄色 | 操操久久 | 公妇乱淫日本免费观看 | 在线亚洲一区 | 免费公开视频人人人人人人人 | 国产成人三级视频在线观看播放 | 男女交黄 | 台湾香港澳门三级在线 | 亚洲插插| 一级片免费在线观看视频 | 午夜小视频免费 | 天天拍夜夜添久久精品中文 | 222在线视频免费观看 | 国产免费午夜 | 国产精品久久久久久久久免费hd | 久久电影福利 | 噜噜色噜噜色 | 日日噜噜噜夜夜爽爽狠狠 | 国产成人优优影院 | 婷婷色香 | 大色视频| 亚洲欧美视频 |