91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

電子發燒友App

硬聲App

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示
電子發燒友網>電子資料下載>電子資料>LAC中文詞法分析解決方案

LAC中文詞法分析解決方案

2022-06-23 | zip | 4.81 MB | 次下載 | 免費

資料介紹

授權協議 Apache 2.0
開發語言 C/C++
操作系統 跨平臺
軟件類型 開源軟件

軟件簡介

中文詞法分析(LAC)

中文分詞(Word Segmentation)是將連續的自然語言文本,切分出具有語義合理性和完整性的詞匯序列的過程。因為在漢語中,詞是承擔語義的最基本單位,切詞是文本分類、情感分析、信息檢索等眾多自然語言處理任務的基礎。 詞性標注(Part-of-speech Tagging)是為自然語言文本中的每一個詞匯賦予一個詞性的過程,這里的詞性包括名詞、動詞、形容詞、副詞等等。 命名實體識別(Named Entity Recognition,NER)又稱作“專名識別”,是指識別自然語言文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。 我們將這三個任務統一成一個聯合任務,稱為詞法分析任務,基于深度神經網絡,利用海量標注語料進行訓練,提供了一個端到端的解決方案。

我們把這個聯合的中文詞法分析解決方案命名為 LAC 。LAC 既可以認為是?Lexical Analysis of Chinese?的首字母縮寫,也可以認為是?LAC Analyzes Chinese?的遞歸縮寫。

特別注意:本項目依賴Paddle v0.14.0版本。如果您的Paddle安裝版本低于此要求,請按照安裝文檔中的說明更新Paddle安裝版本。

項目結構

.
├──?AUTHORS??????????????#?貢獻者列表
├──?CMakeLists.txt???????#?cmake配置文件
├──?conf?????????????????#?運行本例所需的模型及字典文件
├──?data?????????????????#?運行本例所需要的數據依賴
├──?include??????????????#?頭文件
├──?LICENSE??????????????#?許可證信息
├──?python???????????????#?訓練使用的python文件
├──?README.md????????????#?本文檔
├──?src??????????????????#?源碼
├──?technical-report?????#?技術報告
└──?test?????????????????#?Demo程序

?

引用

如果您的學術工作成果中使用了LAC,請您增加下述引用。我們非常欣慰LAC能夠對您的學術工作帶來幫助。

@article{jiao2018LAC,
	title={Chinese?Lexical?Analysis?with?Deep?Bi-GRU-CRF?Network},
	author={Jiao,?Zhenyu?and?Sun,?Shuqi?and?Sun,?Ke},
	journal={arXiv?preprint?arXiv:1807.01882},
	year={2018},
	url={https://arxiv.org/abs/1807.01882}
}

?

模型

詞法分析任務的輸入是一個字符串(我們后面使用『句子』來指代它),而輸出是句子中的詞邊界和詞性、實體類別。序列標注是詞法分析的經典建模方式。我們使用基于GRU的網絡結構學習特征,將學習到的特征接入CRF解碼層完成序列標注。CRF解碼層本質上是將傳統CRF中的線性模型換成了非線性神經網絡,基于句子級別的似然概率,因而能夠更好的解決標記偏置問題。模型要點如下,具體細節請參考python/train.py代碼。

  1. 輸入采用one-hot方式表示,每個字以一個id表示

  2. one-hot序列通過字表,轉換為實向量表示的字向量序列;

  3. 字向量序列作為雙向GRU的輸入,學習輸入序列的特征表示,得到新的特性表示序列,我們堆疊了兩層雙向GRU以增加學習能力;

  4. CRF以GRU學習到的特征為輸入,以標記序列為監督信號,實現序列標注。

詞性和專名類別標簽集合如下表,其中詞性標簽24個(小寫字母),專名類別標簽4個(大寫字母)。這里需要說明的是,人名、地名、機名和時間四個類別,在上表中存在兩套標簽(PER / LOC / ORG / TIME 和 nr / ns / nt / t),被標注為第二套標簽的詞,是模型判斷為低置信度的人名、地名、機構名和時間詞。開發者可以基于這兩套標簽,在四個類別的準確、召回之間做出自己的權衡。

poYBAGKn5f6AG6S6AAF7rm1MSvI515.jpg

數據

訓練使用的數據可以由用戶根據實際的應用場景,自己組織數據。數據由兩列組成,以制表符分隔,第一列是utf8編碼的中文文本,第二列是對應每個字的標注,以空格分隔。我們采用IOB2標注體系,即以X-B作為類型為X的詞的開始,以X-I作為類型為X的詞的持續,以O表示不關注的字(實際上,在詞性、專名聯合標注中,不存在O)。示例如下:

在抗日戰爭時期,朝鮮族人民先后有十幾萬人參加抗日戰斗??p-B?vn-B?vn-I?n-B?n-I?n-B?n-I?w-B?nz-B?nz-I?nz-I?n-B?n-I?d-B?d-I?v-B?m-B?m-I?m-I?n-B?v-B?v-I?vn-B?vn-I?vn-B?vn-I

?

  • 我們隨同代碼一并發布了完全版的模型和相關的依賴數據。但是,由于模型的訓練數據過于龐大,我們沒有發布訓練數據,僅在data目錄下的train_datatest_data文件中放置少數樣本用以示例輸入數據格式。

  • 模型依賴數據包括:

  1. 輸入文本的詞典,在conf目錄下,對應word.dic

  2. 對輸入文本中特殊字符進行轉換的字典,在conf目錄下,對應q2b.dic

  3. 標記標簽的詞典,在conf目錄下,對應tag.dic

  • 在訓練和預測階段,我們都需要進行原始數據的預處理,具體處理工作包括:

    在訓練階段,這些工作由python/train.py調用python/reader.py完成;在預測階段,由C++代碼完成。

  1. 從原始數據文件中抽取出句子和標簽,構造句子序列和標簽序列

  2. 將句子序列中的特殊字符進行轉換

  3. 依據詞典獲取詞對應的整數索引

?

下載該資料的人也在下載 下載該資料的人還在閱讀
更多 >

評論

查看更多

下載排行

本周

  1. 1DD3118電路圖紙資料
  2. 0.08 MB   |  1次下載  |  免費
  3. 2AD庫封裝庫安裝教程
  4. 0.49 MB   |  1次下載  |  免費
  5. 3PC6206 300mA低功耗低壓差線性穩壓器中文資料
  6. 1.12 MB   |  1次下載  |  免費
  7. 4網絡安全從業者入門指南
  8. 2.91 MB   |  1次下載  |  免費
  9. 5DS-CS3A P00-CN-V3
  10. 618.05 KB  |  1次下載  |  免費
  11. 6海川SM5701規格書
  12. 1.48 MB  |  次下載  |  免費
  13. 7H20PR5電磁爐IGBT功率管規格書
  14. 1.68 MB   |  次下載  |  1 積分
  15. 8IP防護等級說明
  16. 0.08 MB   |  次下載  |  免費

本月

  1. 1貼片三極管上的印字與真實名稱的對照表詳細說明
  2. 0.50 MB   |  103次下載  |  1 積分
  3. 2涂鴉各WiFi模塊原理圖加PCB封裝
  4. 11.75 MB   |  89次下載  |  1 積分
  5. 3錦銳科技CA51F2 SDK開發包
  6. 24.06 MB   |  43次下載  |  1 積分
  7. 4錦銳CA51F005 SDK開發包
  8. 19.47 MB   |  19次下載  |  1 積分
  9. 5PCB的EMC設計指南
  10. 2.47 MB   |  16次下載  |  1 積分
  11. 6HC05藍牙原理圖加PCB
  12. 15.76 MB   |  13次下載  |  1 積分
  13. 7802.11_Wireless_Networks
  14. 4.17 MB   |  12次下載  |  免費
  15. 8蘋果iphone 11電路原理圖
  16. 4.98 MB   |  6次下載  |  2 積分

總榜

  1. 1matlab軟件下載入口
  2. 未知  |  935127次下載  |  10 積分
  3. 2開源硬件-PMP21529.1-4 開關降壓/升壓雙向直流/直流轉換器 PCB layout 設計
  4. 1.48MB  |  420064次下載  |  10 積分
  5. 3Altium DXP2002下載入口
  6. 未知  |  233089次下載  |  10 積分
  7. 4電路仿真軟件multisim 10.0免費下載
  8. 340992  |  191390次下載  |  10 積分
  9. 5十天學會AVR單片機與C語言視頻教程 下載
  10. 158M  |  183342次下載  |  10 積分
  11. 6labview8.5下載
  12. 未知  |  81588次下載  |  10 積分
  13. 7Keil工具MDK-Arm免費下載
  14. 0.02 MB  |  73815次下載  |  10 積分
  15. 8LabVIEW 8.6下載
  16. 未知  |  65989次下載  |  10 積分
主站蜘蛛池模板: 欧美zooz人禽交免费观看 | 国产午夜精品理论片 | 鲁老汉精品视频在线观看 | 欧美日韩国产一区二区三区不卡 | 海棠高h粗暴调教双性男男 韩国韩宝贝2020vip福利视频 | h网站在线看| 全国男人的天堂天堂网 | 天天干天天谢 | 免费网站成人亚洲 | 色婷婷在线视频 | 四虎影院com| 天天在线影院 | 四虎影院最新网站 | 欧美一级高清免费播放 | 日本三级视频在线播放 | 四虎亚洲国产成人久久精品 | 婷婷色网 | 国产精品久久精品牛牛影视 | 特色一级黄色片 | 天天爽爽 | 202z国产高清日本在线播放 | 涩综合| 欧美性一区二区三区五区 | 亚洲黄色三级网站 | 免费看性| 国模谢心2013.05.06私拍 | 毛片基地在线 | 美女视频网站色 | 国产高清美女一级a毛片 | 男人的天堂免费视频 | 久久国产免费观看精品 | 毛片网站网址 | 日本xxxx色视频在线观看免费 | 欧美高清milf在线播放 | 成人欧美一区二区三区 | 五月六月伊人狠狠丁香网 | 成年午夜一级毛片视频 | 五月综合激情久久婷婷 | 男人j桶进女人j的视频 | ccc36色影 | 丰满放荡岳乱妇91www |