在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

電子發(fā)燒友App

硬聲App

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示
創(chuàng)作
電子發(fā)燒友網(wǎng)>電子資料下載>電子資料>LAC中文詞法分析解決方案

LAC中文詞法分析解決方案

2022-06-23 | zip | 4.81 MB | 次下載 | 免費(fèi)

資料介紹

授權(quán)協(xié)議 Apache 2.0
開發(fā)語言 C/C++
操作系統(tǒng) 跨平臺(tái)
軟件類型 開源軟件

軟件簡介

中文詞法分析(LAC)

中文分詞(Word Segmentation)是將連續(xù)的自然語言文本,切分出具有語義合理性和完整性的詞匯序列的過程。因?yàn)樵跐h語中,詞是承擔(dān)語義的最基本單位,切詞是文本分類、情感分析、信息檢索等眾多自然語言處理任務(wù)的基礎(chǔ)。 詞性標(biāo)注(Part-of-speech Tagging)是為自然語言文本中的每一個(gè)詞匯賦予一個(gè)詞性的過程,這里的詞性包括名詞、動(dòng)詞、形容詞、副詞等等。 命名實(shí)體識(shí)別(Named Entity Recognition,NER)又稱作“專名識(shí)別”,是指識(shí)別自然語言文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等。 我們將這三個(gè)任務(wù)統(tǒng)一成一個(gè)聯(lián)合任務(wù),稱為詞法分析任務(wù),基于深度神經(jīng)網(wǎng)絡(luò),利用海量標(biāo)注語料進(jìn)行訓(xùn)練,提供了一個(gè)端到端的解決方案。

我們把這個(gè)聯(lián)合的中文詞法分析解決方案命名為 LAC 。LAC 既可以認(rèn)為是?Lexical Analysis of Chinese?的首字母縮寫,也可以認(rèn)為是?LAC Analyzes Chinese?的遞歸縮寫。

特別注意:本項(xiàng)目依賴Paddle v0.14.0版本。如果您的Paddle安裝版本低于此要求,請(qǐng)按照安裝文檔中的說明更新Paddle安裝版本。

項(xiàng)目結(jié)構(gòu)

.
├──?AUTHORS??????????????#?貢獻(xiàn)者列表
├──?CMakeLists.txt???????#?cmake配置文件
├──?conf?????????????????#?運(yùn)行本例所需的模型及字典文件
├──?data?????????????????#?運(yùn)行本例所需要的數(shù)據(jù)依賴
├──?include??????????????#?頭文件
├──?LICENSE??????????????#?許可證信息
├──?python???????????????#?訓(xùn)練使用的python文件
├──?README.md????????????#?本文檔
├──?src??????????????????#?源碼
├──?technical-report?????#?技術(shù)報(bào)告
└──?test?????????????????#?Demo程序

?

引用

如果您的學(xué)術(shù)工作成果中使用了LAC,請(qǐng)您增加下述引用。我們非常欣慰LAC能夠?qū)δ膶W(xué)術(shù)工作帶來幫助。

@article{jiao2018LAC,
	title={Chinese?Lexical?Analysis?with?Deep?Bi-GRU-CRF?Network},
	author={Jiao,?Zhenyu?and?Sun,?Shuqi?and?Sun,?Ke},
	journal={arXiv?preprint?arXiv:1807.01882},
	year={2018},
	url={https://arxiv.org/abs/1807.01882}
}

?

模型

詞法分析任務(wù)的輸入是一個(gè)字符串(我們后面使用『句子』來指代它),而輸出是句子中的詞邊界和詞性、實(shí)體類別。序列標(biāo)注是詞法分析的經(jīng)典建模方式。我們使用基于GRU的網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)特征,將學(xué)習(xí)到的特征接入CRF解碼層完成序列標(biāo)注。CRF解碼層本質(zhì)上是將傳統(tǒng)CRF中的線性模型換成了非線性神經(jīng)網(wǎng)絡(luò),基于句子級(jí)別的似然概率,因而能夠更好的解決標(biāo)記偏置問題。模型要點(diǎn)如下,具體細(xì)節(jié)請(qǐng)參考python/train.py代碼。

  1. 輸入采用one-hot方式表示,每個(gè)字以一個(gè)id表示

  2. one-hot序列通過字表,轉(zhuǎn)換為實(shí)向量表示的字向量序列;

  3. 字向量序列作為雙向GRU的輸入,學(xué)習(xí)輸入序列的特征表示,得到新的特性表示序列,我們堆疊了兩層雙向GRU以增加學(xué)習(xí)能力;

  4. CRF以GRU學(xué)習(xí)到的特征為輸入,以標(biāo)記序列為監(jiān)督信號(hào),實(shí)現(xiàn)序列標(biāo)注。

詞性和專名類別標(biāo)簽集合如下表,其中詞性標(biāo)簽24個(gè)(小寫字母),專名類別標(biāo)簽4個(gè)(大寫字母)。這里需要說明的是,人名、地名、機(jī)名和時(shí)間四個(gè)類別,在上表中存在兩套標(biāo)簽(PER / LOC / ORG / TIME 和 nr / ns / nt / t),被標(biāo)注為第二套標(biāo)簽的詞,是模型判斷為低置信度的人名、地名、機(jī)構(gòu)名和時(shí)間詞。開發(fā)者可以基于這兩套標(biāo)簽,在四個(gè)類別的準(zhǔn)確、召回之間做出自己的權(quán)衡。

poYBAGKn5f6AG6S6AAF7rm1MSvI515.jpg

數(shù)據(jù)

訓(xùn)練使用的數(shù)據(jù)可以由用戶根據(jù)實(shí)際的應(yīng)用場景,自己組織數(shù)據(jù)。數(shù)據(jù)由兩列組成,以制表符分隔,第一列是utf8編碼的中文文本,第二列是對(duì)應(yīng)每個(gè)字的標(biāo)注,以空格分隔。我們采用IOB2標(biāo)注體系,即以X-B作為類型為X的詞的開始,以X-I作為類型為X的詞的持續(xù),以O(shè)表示不關(guān)注的字(實(shí)際上,在詞性、專名聯(lián)合標(biāo)注中,不存在O)。示例如下:

在抗日戰(zhàn)爭時(shí)期,朝鮮族人民先后有十幾萬人參加抗日戰(zhàn)斗??p-B?vn-B?vn-I?n-B?n-I?n-B?n-I?w-B?nz-B?nz-I?nz-I?n-B?n-I?d-B?d-I?v-B?m-B?m-I?m-I?n-B?v-B?v-I?vn-B?vn-I?vn-B?vn-I

?

  • 我們隨同代碼一并發(fā)布了完全版的模型和相關(guān)的依賴數(shù)據(jù)。但是,由于模型的訓(xùn)練數(shù)據(jù)過于龐大,我們沒有發(fā)布訓(xùn)練數(shù)據(jù),僅在data目錄下的train_datatest_data文件中放置少數(shù)樣本用以示例輸入數(shù)據(jù)格式。

  • 模型依賴數(shù)據(jù)包括:

  1. 輸入文本的詞典,在conf目錄下,對(duì)應(yīng)word.dic

  2. 對(duì)輸入文本中特殊字符進(jìn)行轉(zhuǎn)換的字典,在conf目錄下,對(duì)應(yīng)q2b.dic

  3. 標(biāo)記標(biāo)簽的詞典,在conf目錄下,對(duì)應(yīng)tag.dic

  • 在訓(xùn)練和預(yù)測階段,我們都需要進(jìn)行原始數(shù)據(jù)的預(yù)處理,具體處理工作包括:

    在訓(xùn)練階段,這些工作由python/train.py調(diào)用python/reader.py完成;在預(yù)測階段,由C++代碼完成。

  1. 從原始數(shù)據(jù)文件中抽取出句子和標(biāo)簽,構(gòu)造句子序列和標(biāo)簽序列

  2. 將句子序列中的特殊字符進(jìn)行轉(zhuǎn)換

  3. 依據(jù)詞典獲取詞對(duì)應(yīng)的整數(shù)索引

?

下載該資料的人也在下載 下載該資料的人還在閱讀
更多 >

評(píng)論

查看更多

下載排行

本周

  1. 1PC4401_DC-DC 42V反激式隔離開關(guān)電路
  2. 0.85 MB   |  3次下載  |  免費(fèi)
  3. 2GPRS智能超聲波液位監(jiān)測終端
  4. 835.55 KB  |  2次下載  |  免費(fèi)
  5. 3NS4862 500mA鋰電池充放電管理IC中文手冊(cè)
  6. 2.27 MB   |  次下載  |  免費(fèi)
  7. 4NS4892B藍(lán)牙耳機(jī)充電倉-線性鋰電池充放電管理IC中文手冊(cè)
  8. 1.79 MB   |  次下載  |  免費(fèi)
  9. 5AIWA HS-JX3000/HS-JX3000D維修手冊(cè)
  10. 14.78 MB   |  次下載  |  10 積分
  11. 6先鋒CDJ-1000MK3打碟機(jī)圖紙
  12. 9.79 MB   |  次下載  |  10 積分
  13. 7NS4823雙聲道AB/D類音頻功率放大器(內(nèi)置BOOST升壓)中文手冊(cè)
  14. 1.26 MB   |  次下載  |  免費(fèi)
  15. 8西門子PLC-模擬量采集計(jì)算使用方法
  16. 0.07 MB   |  次下載  |  2 積分

本月

  1. 1第十一屆 藍(lán)橋杯 單片機(jī)設(shè)計(jì)與開發(fā)項(xiàng)目 省賽 程序設(shè)計(jì)試題及源碼
  2. 90.88KB   |  23次下載  |  3 積分
  3. 2NR-E531TX-XN冰箱說明書
  4. 8.64 MB   |  23次下載  |  免費(fèi)
  5. 3Python從入門到精通背記手冊(cè)
  6. 18.77 MB   |  20次下載  |  1 積分
  7. 4STM32F103C8T6開發(fā)板最小系統(tǒng)原理圖
  8. 0.78 MB   |  17次下載  |  免費(fèi)
  9. 5華碩主板架構(gòu)認(rèn)識(shí)
  10. 1.42 MB   |  11次下載  |  免費(fèi)
  11. 6SX1308應(yīng)用電路圖與SX1308升壓電路圖
  12. 0.18 MB   |  8次下載  |  1 積分
  13. 7東芝彩色電視機(jī)29SF6C維修說明書
  14. 4.86 MB   |  8次下載  |  1 積分
  15. 8單電源板1875電路圖
  16. 0.06 MB   |  7次下載  |  免費(fèi)

總榜

  1. 1matlab軟件下載入口
  2. 未知  |  935127次下載  |  10 積分
  3. 2開源硬件-PMP21529.1-4 開關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計(jì)
  4. 1.48MB  |  420063次下載  |  10 積分
  5. 3Altium DXP2002下載入口
  6. 未知  |  233089次下載  |  10 積分
  7. 4電路仿真軟件multisim 10.0免費(fèi)下載
  8. 340992  |  191377次下載  |  10 積分
  9. 5十天學(xué)會(huì)AVR單片機(jī)與C語言視頻教程 下載
  10. 158M  |  183336次下載  |  10 積分
  11. 6labview8.5下載
  12. 未知  |  81584次下載  |  10 積分
  13. 7Keil工具M(jìn)DK-Arm免費(fèi)下載
  14. 0.02 MB  |  73814次下載  |  10 積分
  15. 8LabVIEW 8.6下載
  16. 未知  |  65988次下載  |  10 積分
主站蜘蛛池模板: 免费高清视频免费观看 | 韩日毛片| 91伊人网| 日韩一级在线播放免费观看 | 国产女人和拘做受视频免费 | 欧美一级欧美一级高清 | 欧美一卡二卡3卡4卡无卡六卡七卡科普 | 国产资源在线观看 | julia一区二区三区中文字幕 | 国产农村妇女毛片精品久久 | 中文字幕天堂在线 | 午夜影院一区二区三区 | 日日天天干 | 色综合成人 | 人人人人凹人人爽人人澡 | 久久久久久91精品色婷婷 | 中文字幕日韩三级 | 给个网站可以在线观看你懂的 | 日本三级日本三级人妇三级四 | 最色网在线观看 | 亚洲一区中文字幕在线 | 深爱激情站 | 午夜婷婷网 | 伊人毛片| cijilu刺激 国产免费的 | 高清视频黄色录像免费 | 日日操夜夜爱 | 国产午夜精品久久久久免费视 | 国产一级在线观看 | 天堂网在线.www天堂在线资源 | 天天干影院 | 成人欧美一区二区三区的电影 | 大黄蕉 | 免费一级毛片清高播放 | 四虎影院永久在线观看 | 国产叼嘿视频网站在线观看 | 日本午夜片成年www 日本午夜三级 | 国内黄色精品 | 日本免费www | аbt天堂资源在线官网 | 午夜影皖 |