在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布基于全詞覆蓋的中文BERT預(yù)訓(xùn)練模型

WpOh_rgznai100 ? 來(lái)源:lq ? 2019-07-18 14:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

為了進(jìn)一步促進(jìn)中文自然語(yǔ)言處理的研究發(fā)展,哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布基于全詞覆蓋(Whole Word Masking)的中文BERT預(yù)訓(xùn)練模型。我們?cè)诙鄠€(gè)中文數(shù)據(jù)集上得到了較好的結(jié)果,覆蓋了句子級(jí)到篇章級(jí)任務(wù)。同時(shí),我們對(duì)現(xiàn)有的中文預(yù)訓(xùn)練模型進(jìn)行了對(duì)比,并且給出了若干使用建議。我們歡迎大家下載試用。

下載地址:https://github.com/ymcui/Chinese-BERT-wwm

技術(shù)報(bào)告:https://arxiv.org/abs/1906.08101

摘要

基于Transformers的雙向編碼表示(BERT)在多個(gè)自然語(yǔ)言處理任務(wù)中取得了廣泛的性能提升。近期,谷歌發(fā)布了基于全詞覆蓋(Whold Word Masking)的BERT預(yù)訓(xùn)練模型,并且在SQuAD數(shù)據(jù)中取得了更好的結(jié)果。應(yīng)用該技術(shù)后,在預(yù)訓(xùn)練階段,同屬同一個(gè)詞的WordPiece會(huì)被全部覆蓋掉,而不是孤立的覆蓋其中的某些WordPiece,進(jìn)一步提升了Masked Language Model (MLM)的難度。在本文中我們將WWM技術(shù)應(yīng)用在了中文BERT中。我們采用中文維基百科數(shù)據(jù)進(jìn)行了預(yù)訓(xùn)練。該模型在多個(gè)自然語(yǔ)言處理任務(wù)中得到了測(cè)試和驗(yàn)證,囊括了句子級(jí)到篇章級(jí)任務(wù),包括:情感分類,命名實(shí)體識(shí)別,句對(duì)分類,篇章分類,機(jī)器閱讀理解。實(shí)驗(yàn)結(jié)果表明,基于全詞覆蓋的中文BERT能夠帶來(lái)進(jìn)一步性能提升。同時(shí)我們對(duì)現(xiàn)有的中文預(yù)訓(xùn)練模型BERT,ERNIE和本文的BERT-wwm進(jìn)行了對(duì)比,并給出了若干使用建議。預(yù)訓(xùn)練模型將發(fā)布在:https://github.com/ymcui/Chinese-BERT-wwm

簡(jiǎn)介

Whole Word Masking (wwm),暫翻譯為全詞Mask,是谷歌在2019年5月31日發(fā)布的一項(xiàng)BERT的升級(jí)版本,主要更改了原預(yù)訓(xùn)練階段的訓(xùn)練樣本生成策略。簡(jiǎn)單來(lái)說(shuō),原有基于WordPiece的分詞方式會(huì)把一個(gè)完整的詞切分成若干個(gè)詞綴,在生成訓(xùn)練樣本時(shí),這些被分開的詞綴會(huì)隨機(jī)被[MASK]替換。在全詞Mask中,如果一個(gè)完整的詞的部分WordPiece被[MASK]替換,則同屬該詞的其他部分也會(huì)被[MASK]替換,即全詞Mask。

同理,由于谷歌官方發(fā)布的BERT-base(Chinese)中,中文是以字為粒度進(jìn)行切分,沒有考慮到傳統(tǒng)NLP中的中文分詞(CWS)。我們將全詞Mask的方法應(yīng)用在了中文中,即對(duì)組成同一個(gè)詞的漢字全部進(jìn)行[MASK]。該模型使用了中文維基百科(包括簡(jiǎn)體和繁體)進(jìn)行訓(xùn)練,并且使用了哈工大語(yǔ)言技術(shù)平臺(tái)LTP(http://ltp.ai)作為分詞工具。

下述文本展示了全詞Mask的生成樣例。

基線測(cè)試結(jié)果

我們選擇了若干中文自然語(yǔ)言處理數(shù)據(jù)集來(lái)測(cè)試和驗(yàn)證預(yù)訓(xùn)練模型的效果。同時(shí),我們也對(duì)近期發(fā)布的谷歌BERT,百度ERNIE進(jìn)行了基準(zhǔn)測(cè)試。為了進(jìn)一步測(cè)試這些模型的適應(yīng)性,我們特別加入了篇章級(jí)自然語(yǔ)言處理任務(wù),來(lái)驗(yàn)證它們?cè)陂L(zhǎng)文本上的建模效果。

以下是我們選用的基準(zhǔn)測(cè)試數(shù)據(jù)集。

我們列舉其中部分實(shí)驗(yàn)結(jié)果,完整結(jié)果請(qǐng)查看我們的技術(shù)報(bào)告。為了確保結(jié)果的穩(wěn)定性,每組實(shí)驗(yàn)均獨(dú)立運(yùn)行10次,匯報(bào)性能最大值和平均值(括號(hào)內(nèi)顯示)。

▌中文簡(jiǎn)體閱讀理解:CMRC 2018

CMRC 2018是哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的中文機(jī)器閱讀理解數(shù)據(jù)。根據(jù)給定問(wèn)題,系統(tǒng)需要從篇章中抽取出片段作為答案,形式與SQuAD相同。

▌中文繁體閱讀理解:DRCD

DRCD數(shù)據(jù)集由中國(guó)***臺(tái)達(dá)研究院發(fā)布,其形式與SQuAD相同,是基于繁體中文的抽取式閱讀理解數(shù)據(jù)集。

▌中文命名實(shí)體識(shí)別:人民日?qǐng)?bào),MSRA-NER

中文命名實(shí)體識(shí)別(NER)任務(wù)中,我們采用了經(jīng)典的人民日?qǐng)?bào)數(shù)據(jù)以及微軟亞洲研究院發(fā)布的NER數(shù)據(jù)。

▌句對(duì)分類:LCQMC,BQ Corpus

LCQMC以及BQ Corpus是由哈爾濱工業(yè)大學(xué)(深圳)發(fā)布的句對(duì)分類數(shù)據(jù)集。

▌篇章級(jí)文本分類:THUCNews

由清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室發(fā)布的新聞數(shù)據(jù)集,需要將新聞分成10個(gè)類別中的一個(gè)。

使用建議

基于以上實(shí)驗(yàn)結(jié)果,我們給出以下使用建議(部分),完整內(nèi)容請(qǐng)查看我們的技術(shù)報(bào)告。

初始學(xué)習(xí)率是非常重要的一個(gè)參數(shù)(不論是BERT還是其他模型),需要根據(jù)目標(biāo)任務(wù)進(jìn)行調(diào)整。

ERNIE的最佳學(xué)習(xí)率和BERT/BERT-wwm相差較大,所以使用ERNIE時(shí)請(qǐng)務(wù)必調(diào)整學(xué)習(xí)率(基于以上實(shí)驗(yàn)結(jié)果,ERNIE需要的初始學(xué)習(xí)率較高)。

由于BERT/BERT-wwm使用了維基百科數(shù)據(jù)進(jìn)行訓(xùn)練,故它們對(duì)正式文本建模較好;而ERNIE使用了額外的百度百科、貼吧、知道等網(wǎng)絡(luò)數(shù)據(jù),它對(duì)非正式文本(例如微博等)建模有優(yōu)勢(shì)。

在長(zhǎng)文本建模任務(wù)上,例如閱讀理解、文檔分類,BERT和BERT-wwm的效果較好。

如果目標(biāo)任務(wù)的數(shù)據(jù)和預(yù)訓(xùn)練模型的領(lǐng)域相差較大,請(qǐng)?jiān)谧约旱臄?shù)據(jù)集上進(jìn)一步做預(yù)訓(xùn)練。

如果要處理繁體中文數(shù)據(jù),請(qǐng)使用BERT或者BERT-wwm。因?yàn)槲覀儼l(fā)現(xiàn)ERNIE的詞表中幾乎沒有繁體中文。

聲明

雖然我們極力的爭(zhēng)取得到穩(wěn)定的實(shí)驗(yàn)結(jié)果,但實(shí)驗(yàn)中難免存在多種不穩(wěn)定因素(隨機(jī)種子,計(jì)算資源,超參),故以上實(shí)驗(yàn)結(jié)果僅供學(xué)術(shù)研究參考。由于ERNIE的原始發(fā)布平臺(tái)是PaddlePaddle(https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE),我們無(wú)法保證在本報(bào)告中的效果能反映其真實(shí)性能(雖然我們?cè)谌舾蓴?shù)據(jù)集中復(fù)現(xiàn)了效果)。同時(shí),上述使用建議僅供參考,不能作為任何結(jié)論性依據(jù)。

該項(xiàng)目不是谷歌官方發(fā)布的中文Whole Word Masking預(yù)訓(xùn)練模型。

總結(jié)

我們發(fā)布了基于全詞覆蓋的中文BERT預(yù)訓(xùn)練模型,并在多個(gè)自然語(yǔ)言處理數(shù)據(jù)集上對(duì)比了BERT、ERNIE以及BERT-wwm的效果。實(shí)驗(yàn)結(jié)果表明,在大多數(shù)情況下,采用了全詞覆蓋的預(yù)訓(xùn)練模型(ERNIE,BERT-wwm)能夠得到更優(yōu)的效果。由于這些模型在不同任務(wù)上的表現(xiàn)不一致,我們也給出了若干使用建議,并且希望能夠進(jìn)一步促進(jìn)中文信息處理的研究與發(fā)展。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:刷新中文閱讀理解水平,哈工大訊飛聯(lián)合發(fā)布基于全詞覆蓋中文BERT預(yù)訓(xùn)練模型

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    奧迪威攜手華南理工大學(xué)共建聯(lián)合創(chuàng)新實(shí)驗(yàn)室,校企深度合作助力產(chǎn)業(yè)升級(jí)

    2025年5月21日,廣東奧迪威傳感科技股份有限公司與華南理工大學(xué)聯(lián)合設(shè)立的創(chuàng)新實(shí)驗(yàn)室正式揭牌。
    的頭像 發(fā)表于 05-23 08:48 ?591次閱讀
    奧迪威攜手華南理<b class='flag-5'>工大</b>學(xué)共建<b class='flag-5'>聯(lián)合</b>創(chuàng)新<b class='flag-5'>實(shí)驗(yàn)室</b>,校企深度合作助力產(chǎn)業(yè)升級(jí)

    中汽信科牽頭成立汽車北斗應(yīng)用聯(lián)合實(shí)驗(yàn)室

    近日,由中汽信科牽頭組建的“汽車北斗應(yīng)用聯(lián)合實(shí)驗(yàn)室”(以下簡(jiǎn)稱“聯(lián)合實(shí)驗(yàn)室”)正式通過(guò)中國(guó)產(chǎn)學(xué)研合作促進(jìn)會(huì)評(píng)審,并獲批授牌。
    的頭像 發(fā)表于 03-27 15:22 ?548次閱讀

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    ,使用PaddleNLP將FineWeb數(shù)據(jù)集中文本形式的數(shù)據(jù),經(jīng)過(guò)分詞化(Tokenize),轉(zhuǎn)換為大語(yǔ)言模型能直接使用的二進(jìn)制數(shù)據(jù),以便提升訓(xùn)練效果。 ChatGPT發(fā)布后,當(dāng)代大
    的頭像 發(fā)表于 03-21 18:24 ?1482次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進(jìn)制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    龍芯“百芯計(jì)劃”聯(lián)合實(shí)驗(yàn)室首批高校名單揭曉

    為響應(yīng)國(guó)家集成電路產(chǎn)業(yè)發(fā)展戰(zhàn)略,龍芯中科于2024年9月啟動(dòng)“LoongArch生態(tài)聯(lián)合創(chuàng)新實(shí)驗(yàn)室-百芯計(jì)劃”,旨在通過(guò)校企合作模式,在全國(guó)范圍選擇百所高校,共建芯片聯(lián)合實(shí)驗(yàn)室,加速自
    的頭像 發(fā)表于 01-24 11:47 ?832次閱讀

    科大發(fā)布醫(yī)療大模型升級(jí)版

    近日,科大宣布了一項(xiàng)令人矚目的計(jì)劃:在2025年上半年,公司將正式發(fā)布基于星火X1的醫(yī)療大模型
    的頭像 發(fā)表于 01-17 09:57 ?586次閱讀

    科大星火大模型升級(jí)發(fā)布會(huì)回顧

    發(fā)布首個(gè)基于全國(guó)產(chǎn)算力平臺(tái)訓(xùn)練的具備深度思考和推理能力的大模型——星火深度推理模型X1,
    的頭像 發(fā)表于 01-16 14:51 ?1610次閱讀

    科大即將發(fā)布星火深度推理模型X1

    近日,科大飛在1月7日成功舉辦的辦公智能體產(chǎn)品升級(jí)發(fā)布會(huì)上,宣布了一項(xiàng)令人振奮的新進(jìn)展。據(jù)科大官方透露,公司將于1月15日正式對(duì)外發(fā)布
    的頭像 發(fā)表于 01-08 10:30 ?724次閱讀

    阿里云與零一萬(wàn)物戰(zhàn)略合作,成立產(chǎn)業(yè)大模型聯(lián)合實(shí)驗(yàn)室

    近日,阿里云與業(yè)界領(lǐng)先的大模型企業(yè)零一萬(wàn)物宣布達(dá)成模型平臺(tái)業(yè)務(wù)的戰(zhàn)略合作。此次合作的核心內(nèi)容是雙方將共同成立“產(chǎn)業(yè)大模型聯(lián)合實(shí)驗(yàn)室”,旨在加
    的頭像 發(fā)表于 01-03 11:12 ?566次閱讀

    小米與聚光電成立聯(lián)合實(shí)驗(yàn)室

    近日,“小米&聚聯(lián)合實(shí)驗(yàn)室”在惠州聚正式揭牌成立。該實(shí)驗(yàn)室將以Mini背光技術(shù)創(chuàng)新為主要方向,進(jìn)一步強(qiáng)化雙方在顯示終端領(lǐng)域的多元化合作。
    的頭像 發(fā)表于 11-27 10:45 ?610次閱讀

    科大發(fā)布星火4.0 Turbo大模型及星火多語(yǔ)言大模型

    ,科大以其一貫的創(chuàng)新精神,開創(chuàng)性地發(fā)布了星火多語(yǔ)言大模型。這一創(chuàng)新之舉不僅進(jìn)一步鞏固了科大飛在中文
    的頭像 發(fā)表于 10-24 13:58 ?872次閱讀

    云知聲成立智慧空港聯(lián)合創(chuàng)新實(shí)驗(yàn)室

    云知聲攜手元翔(廈門)國(guó)際航空港股份有限公司(簡(jiǎn)稱“元翔廈門空港”)、廈門兆翔智能科技有限公司(簡(jiǎn)稱“兆翔科技”)共同成立的智慧空港聯(lián)合創(chuàng)新實(shí)驗(yàn)室在廈門高崎國(guó)際機(jī)場(chǎng)T4航站樓舉行揭牌儀式,聯(lián)合創(chuàng)新
    的頭像 發(fā)表于 10-15 09:11 ?748次閱讀

    vivo Arm聯(lián)合實(shí)驗(yàn)室正式成立

    近日,vivo與全球領(lǐng)先的芯片技術(shù)提供商Arm共同宣布,vivo Arm聯(lián)合實(shí)驗(yàn)室正式揭牌成立。這一合作標(biāo)志著兩家行業(yè)巨頭在芯片技術(shù)創(chuàng)新領(lǐng)域的深度融合與攜手并進(jìn)。
    的頭像 發(fā)表于 09-29 17:18 ?943次閱讀

    華工科技聯(lián)合哈工大實(shí)現(xiàn)國(guó)內(nèi)首臺(tái)激光智能除草機(jī)器人落地

    華工科技黨委書記、董事長(zhǎng)、總裁馬新強(qiáng)一行赴哈爾濱對(duì)哈爾濱工業(yè)大學(xué)機(jī)器人技術(shù)與系統(tǒng)全國(guó)重點(diǎn)實(shí)驗(yàn)室(后簡(jiǎn)稱哈工大機(jī)器人實(shí)驗(yàn)室)、愛輝區(qū)智能激光除草機(jī)器人試點(diǎn)基地進(jìn)行實(shí)地調(diào)研,代表華工科技中央研究院同
    的頭像 發(fā)表于 09-06 10:45 ?1421次閱讀

    榮耀與智譜攜手共建AI大模型聯(lián)合實(shí)驗(yàn)室

    近日,榮耀終端有限公司與北京智譜華章科技有限公司正式攜手,共同宣布成立AI大模型技術(shù)聯(lián)合實(shí)驗(yàn)室,并簽署了戰(zhàn)略合作協(xié)議。此次合作標(biāo)志著雙方在人工智能領(lǐng)域的深度合作邁入新階段,共同致力于為用戶帶來(lái)前所未有的智能體驗(yàn)。
    的頭像 發(fā)表于 09-03 18:15 ?1315次閱讀

    大語(yǔ)言模型預(yù)訓(xùn)練

    能力,逐漸成為NLP領(lǐng)域的研究熱點(diǎn)。大語(yǔ)言模型預(yù)訓(xùn)練是這一技術(shù)發(fā)展的關(guān)鍵步驟,它通過(guò)在海量無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行訓(xùn)練,使模型學(xué)習(xí)到語(yǔ)言的通用知識(shí)
    的頭像 發(fā)表于 07-11 10:11 ?959次閱讀
    主站蜘蛛池模板: 天天摸日日添狠狠添婷婷 | 免费在线观看大片影视大全 | 午夜高清在线观看免费6 | 日本亚洲高清乱码中文在线观看 | 黄色录像视频网站 | www.一区二区三区 | 色妞综合网 | 国产美女主播一级成人毛片 | 性欧美高清短视频免费 | 国产二区三区 | 免费在线不卡视频 | 在线 你懂 | 亚瑟 国产精品 | 色综合综合色综合色综合 | 欧美性淫爽www视频播放 | 日本视频一区二区 | 色偷偷狠狠色综合网 | 韩漫免费网站无遮挡羞羞漫画 | 亚洲精品国产自在久久出水 | 黄色在线视频免费 | 四虎永久免费地址 | 中国一级生活片 | 黄色网一级片 | www.91免费视频 | xxxx日本69护士| 能看的黄色网址 | 免费一级欧美片在线观看 | 手机在线免费观看视频 | 亚洲最大色网 | 躁天天躁中文字幕在线 | 欧美日韩一区二区三区视频 | 在线看片你懂得 | 午夜三级成人三级 | 午夜免费福利影院 | 免费看污黄视频软件 | 亚洲人成电影在线小说网色 | 色尼玛亚洲综合 | 四虎最新在线 | 亚洲免费观看在线视频 | 种子在线搜索bt | 天天插综合网 |