91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

PaddleNLP v2.3帶來兩大重磅能力

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2022-05-16 15:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

PaddleNLP v2.3帶來兩大重磅能力:

  • 通用信息抽取統一建模技術UIE開源!

  • 文心大模型ENRIE輕量級模型及一系列產業范例實踐開源!

01

通用信息抽取

在金融、政務、法律、醫療等眾多行業中,大量文檔信息需要進行數字化及結構化處理,而人工處理方式往往費時費力,且容易產生錯誤。信息抽取技術能很好地解決這個問題。信息抽取(Information Extraction,IE)指的是從自然語言文本中抽取指定類型的實體、關系、事件等事實信息,并形成結構化數據輸出的文本處理技術。

070f379a-d4d2-11ec-bce3-dac502259ad0.gif

圖:信息抽取應用場景示例

隨著企業智能化轉型的加速,信息抽取技術被廣泛應用于各行各業的文本處理中。舉個例子,在政務場景下,市政工作人員需要處理各類市民電話投訴事件,很難從長篇累牘的投訴內容中一眼就找到需要的信息,而信息抽取技術則可以快速提取出投訴報告中的被投訴方、事件發生時間、地點、投訴事件等信息,使得工作人員能夠快速掌握投訴要點,大幅提升處理效率。

信息抽取是NLP技術落地中必不可少的環節,然而當前市面上的信息抽取工具大多基于傳統算法構建,偏向學術研究,對實際使用并不友好。產業級信息抽取面臨著多種挑戰:

  1. 領域多樣:領域之間知識遷移難度高,如通用領域知識很難遷移到垂類領域,垂類領域之間的知識很難相互遷移;

  2. 任務多樣:針對實體、關系、事件等不同的信息抽取任務,需要開發不同的模型,開發成本和機器資源消耗都很大;

  3. 數據獲取&標注成本高:部分領域數據稀缺,難以獲取,且領域專業性使得數據標注門檻高。

針對以上難題,中科院軟件所和百度共同提出了一個大一統諸多任務的通用信息抽取技術UIE(Universal Information Extraction),在實體、關系、事件和情感等4個信息抽取任務、13個數據集的全監督、低資源和少樣本設置下,UIE均取得了SOTA性能,這項成果發表在ACL 2022[1]。

飛槳PaddleNLP結合文心大模型中的知識增強NLP大模型ERNIE 3.0,發揮了UIE在中文任務上的強大潛力,開源了首個面向通用信息抽取的產業級技術方案,不需要標注數據(或僅需少量標注數據),即可快速完成各類信息抽取任務:

  • 多任務統一建模

傳統技術方案下,針對不同的抽取任務,需要構建多個IE模型。各個模型單獨訓練,數據和知識不共享。一個公司可能需要管理眾多IE模型。而在UIE方案下,單個模型解決所有信息抽取需求,包括但不限于實體、關系、事件、評價維度、觀點詞、情感傾向等信息抽取,降低開發成本和機器成本。

073cb90e-d4d2-11ec-bce3-dac502259ad0.png

圖:傳統方案 vs UIE統一建模方案

UIE是一個大一統諸多任務的開放域信息抽取技術方案,直接上圖:

075c8fc2-d4d2-11ec-bce3-dac502259ad0.png

通過構建結構化模式提示器(SSI,Structural Schema Instructor),UIE能夠對不同的信息抽取目標進行統一編碼,從而實現多任務的統一建模。

簡單來說,UIE借鑒近年來火熱的Prompt概念,將希望抽取的Schema信息轉換成“線索詞”(Schema-based Prompt)作為模型輸入的前綴,使得模型理論上能夠適應不同領域和任務的Schema信息,并按需抽取出線索詞指向的結果,從而實現開放域環境下的通用信息抽取。例如上圖中,假如我們希望從一段文本中抽取出“人名”的實體和“工作于”的關系,便可以構造[spot] person [asso] work for的前綴,連接要抽取的目標文本[text] ,作為整體輸入到UIE中。

  • 零樣本抽取和少樣本快速遷移能力

UIE開創了基于Prompt的信息抽取多任務統一建模方式,通過大規模多任務預訓練學習的通用抽取能力,可以實現不限定行業領域和抽取目標,零樣本快速冷啟動。例如在金融領域客戶收入證明信息抽取(下圖左)中,無需訓練數據,即可全部抽取正確。針對復雜抽取需求,標注少量數據微調即完成任務適配,大大降低標注門檻和成本。例如醫療報告結構化(下圖中)和報銷單信息抽取(下圖右)中,僅標注了幾條樣本,F1值就取得大幅提升,真是太實用了!

07761be0-d4d2-11ec-bce3-dac502259ad0.png

圖:實體抽取零樣本和小樣本效果展示

除實體抽取任務外,在金融、醫療、互聯網三大自建測試集的關系、事件抽取任務上進行實驗,標注少樣本也可帶來顯著的效果提升,尤其在金融、醫療等專業垂類領域上效果突出,例如,在金融領域的事件抽取任務上,僅僅標注5條樣本,F1值提升了25個點!也就是說,即使模型在某些case或某些場景下表現欠佳,人工標幾個樣本,丟給模型后就會有大幅的效果提升。

0792d438-d4d2-11ec-bce3-dac502259ad0.png

說明:0-shot表示無訓練數據直接預測,5-shot表示基于5條標注數據進行模型微調。uie-tiny和uie-base分別表示6層和12層的UIE模型。

UIE強大的小樣本學習能力是行業大規模落地的關鍵,目前已通過了大量的業務驗證:

  • 在金融領域,某銀行使用UIE實現了智能營銷場景下的標簽抽取和內容推薦系統,在線上推薦業務中,AUC提升14%;

  • 在醫療領域,UIE實現對電子病歷、醫療書籍進行癥狀、疾病、檢驗指標等關鍵信息抽取,助力百度智慧醫療業務迅速殺入國內第一梯隊;

  • 在法律領域,抽取裁判文書中的犯罪事件主體、事件經過、罪名等信息,建立刑事大數據分析系統,僅用60條數據進行模型微調,F1達到94.36%;

  • 在政務領域,識別市民投訴電話中的投訴對象、地點等關鍵信息,快速聚合相似事件、智能分發,有效提升了事件處理率,目前,UIE已上線到多個城市的政務系統中。

  • 在電商零售領域,某大型家電零售企業借助UIE實現了評論觀點抽取、情感傾向預測,搭建了完整的服務智能化評分系統,準確率和召回率均達到90%+。服務評分的智能化,使得該企業客服運營人力減少40%,負面問題處理率從60%飆升至100%,售后的差評率整體降低70%。

  • 便捷易用

這么酷炫的技術能力,如何快速應用到業務中呢?

通過調用paddlenlp.Taskflow API即可實現零樣本(zero-shot)抽取多種類型的信息:

話不多說,直接上代碼,上效果!
#實體抽取
frompprintimportpprint
frompaddlenlpimportTaskflow
schema=['時間','選手','賽事名稱']#Definetheschemaforentityextraction
ie=Taskflow('information_extraction',schema=schema)
pprint(ie("2月8日上午北京冬奧會自由式滑雪女子大跳臺決賽中中國選手谷愛凌以188.25分獲得金牌!"))#Betterprintresultsusingpprint
>>>
[{'時間':[{'end':6,'probability':0.9857378532924486,'start':0,'text':'2月8日上午'}],
'賽事名稱':[{'end':23,'probability':0.8503089953268272,'start':6,'text':'北京冬奧會自由式滑雪女子大跳臺決賽'}],
'選手':[{'end':31,'probability':0.8981548639781138,'start':28,'text':'谷愛凌'}]}]
僅用三行代碼就實現了精準實體抽取! 再來試試更困難的事件抽取任務,看看效果如何?
#事件抽取
schema={'地震觸發詞':['地震強度','時間','震中位置','震源深度']}#Definetheschemaforeventextraction
ie.set_schema(schema)#Resetschema
ie('中國地震臺網正式測定:5月16日06時08分在云南臨滄市鳳慶縣(北緯24.34度,東經99.98度)發生3.5級地震,震源深度10千米。')
>>>
[{'地震觸發詞':
[{'end':58,'probability':0.9987181623528585,'start':56,'text':'地震',
'relations':
{'地震強度':[{'end':56,'probability':0.9962985320905915,'start':52,'text':'3.5級'}],
'時間':[{'end':22,'probability':0.9882578028575182,'start':11,'text':'5月16日06時08分'}],
'震中位置':[{'end':50,'probability':0.8551417444021787,'start':23,'text':'云南臨滄市鳳慶縣(北緯24.34度,東經99.98度)'}],
'震源深度':[{'end':67,'probability':0.999158304648045,'start':63,'text':'10千米'}]}
}]
}]
同樣易用而精準!

對于復雜目標,可以標注少量數據(Few-shot)進行模型訓練,以進一步提升效果。PaddleNLP打通了從數據標注-訓練-部署全流程,方便大家進行定制化訓練。

是不是迫不及待想試用一下?戳以下鏈接即可立馬體驗。可以STAR收藏,不會走丟~:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie

02

文心大模型ERNIE輕量級模型開源

PaddleNLP開源的信息抽取能力背后,除了大一統信息抽取技術UIE外,還得益于文心產業級知識增強大模型——文心ERNIE 3.0的底座支撐。我們知道,知識對于信息抽取任務至關重要。而文心ERNIE 3.0不僅參數量大,還吸納了千萬級別實體的知識圖譜,可以說是中文NLP方面最有“知識量”的SOTA底座。

文心ERNIE 3.0在機器閱讀理解、文本分類、語義相似度計算等60多項任務中取得最好效果,并在30余項小樣本和零樣本任務上刷新基準。通過百度首創的在線蒸餾技術,通過“一師多徒”、“多代傳承”的方式實現了效果顯著的模型壓縮方案。

07bbb358-d4d2-11ec-bce3-dac502259ad0.jpg

近日,這個6層中文SOTA預訓練模型也開源了!此外,PaddleNLP v2.3還提供了該模型完整的推理部署工具鏈,包含PaddleSlim裁剪量化壓縮方案、Paddle Inference CPUGPU高性能推理部署和Paddle Serving服務化部署能力,可以做到精度無損的情況下實現8.8倍的加速提升,一站式滿足多場景的產業部署需求。

為了推動NLP技術快速大規模落地到產業界,PaddleNLP還針對產業高頻場景,打通了數據準備-模型訓練-模型調優-推理部署端到端全流程,推出一系列基于文心大模型的產業范例:如語音工單信息抽取、說明書問答、產品評論情感分析、語義檢索系統等…

ERNIE 3.0輕量級模型:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-3.0

看到這里的小伙伴一定發現了,PaddleNLP其實是一個集前沿預訓練模型、開箱即用工具集和產業系統方案于一身的NLP萬能法寶。自開源以來,PaddleNLP不斷獲得科研和產業界朋友的認可和喜愛,頻頻現身GitHub和Papers With Code榜單。

07e9fe34-d4d2-11ec-bce3-dac502259ad0.gif

審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數字化
    +關注

    關注

    8

    文章

    9539

    瀏覽量

    63624

原文標題:首創基于Prompt的產業級信息抽取能力,這個開源工具用心了!

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    ZSKY 2301-20V-2.3A-155K塑料封裝MOSFETS規格書

    電子發燒友網站提供《ZSKY 2301-20V-2.3A-155K塑料封裝MOSFETS規格書.pdf》資料免費下載
    發表于 05-13 18:20 ?0次下載

    ZSKY-2302-20V-2.3A 150-160K N溝道MOSFET技術手冊

    電子發燒友網站提供《ZSKY-2302-20V-2.3A 150-160K N溝道MOSFET技術手冊.pdf》資料免費下載
    發表于 05-13 16:40 ?0次下載

    ZSKY-2302-20V-2.3A 155K N溝道MOSFET技術手冊

    電子發燒友網站提供《ZSKY-2302-20V-2.3A 155K N溝道MOSFET技術手冊.pdf》資料免費下載
    發表于 05-13 16:38 ?0次下載

    重磅更新 | 先楫半導體HPM_APPS v1.9.0發布

    重磅更新 | 先楫半導體HPM_APPS v1.9.0發布
    的頭像 發表于 05-13 11:29 ?621次閱讀
    <b class='flag-5'>重磅</b>更新 | 先楫半導體HPM_APPS <b class='flag-5'>v</b>1.9.0發布

    電裝發布環境與安心兩大領域的戰略成果

    近日,電裝于「第二十一屆上海國際汽車工業展覽會」新聞發布會上,圍繞“環境”與“安心”兩大領域,展示在電動化、智能化與可持續發展領域的創新成果,彰顯長期深耕中國市場、持續推動可持續出行的戰略承諾與行動。
    的頭像 發表于 04-27 11:11 ?421次閱讀

    PaddleNLP為GPT-2模型制作FineWeb二進制預訓練數據集

    作者:算力魔方創始人/英特爾創新大使劉力 《用PaddleNLP在4060單卡上實踐大模型預訓練技術》發布后收到讀者熱烈反響,很多讀者要求進一步講解更多的技術細節。本文主要針對大語言模型的預訓練流程
    的頭像 發表于 03-21 18:24 ?1704次閱讀
    用<b class='flag-5'>PaddleNLP</b>為GPT-2模型制作FineWeb二進制預訓練數據集

    天合光能榮獲2025年“北極星杯”兩大獎項

    近日,2025年“北極星杯”儲能影響力企業評選頒獎典禮在浙江杭州隆重舉行。天合光能憑借前瞻性技術創新、卓越的系統集成能力以及出色的市場表現,榮獲“儲能影響力系統集成商” “儲能技術創新企業”兩大獎項,充分彰顯其在儲能全產業鏈的技術實力與在全球新能源賽道中的領跑地位。
    的頭像 發表于 03-17 18:10 ?661次閱讀

    PSMN2R3-100SSE N溝道100V2.3 mOhm MOSFET規格書

    電子發燒友網站提供《PSMN2R3-100SSE N溝道100V2.3 mOhm MOSFET規格書.pdf》資料免費下載
    發表于 02-14 15:42 ?0次下載
    PSMN2R3-100SSE N溝道100<b class='flag-5'>V</b>、<b class='flag-5'>2.3</b> mOhm MOSFET規格書

    亞成微電子斬獲兩大榮譽

    新春伊始,亞成微捷報頻傳,接連斬獲兩大里程碑式榮譽——成功通過IATF16949:2016汽車行業質量管理體系認證,并榮獲“陜西省工業設計中心”榮譽稱號!
    的頭像 發表于 02-12 13:12 ?523次閱讀

    ADS112U04在2.3V~3.3V之間的IDCA的精度是怎么樣的?

    手冊上描述的恒流激勵IDAC精度是在供電3.3V~5.5V的時候,但是ADC的供電范圍是2.3V~5.5V,那么在2.3V~3.3
    發表于 12-13 07:43

    浪潮信息源2.0大模型與百度PaddleNLP全面適配

    近日,浪潮信息宣布其開源大模型源2.0已全面適配百度PaddleNLP。這一舉措標志著大模型開發生態正加速進化,為用戶提供了更加便捷、高效的大模型應用體驗。
    的頭像 發表于 10-17 18:15 ?988次閱讀

    Skydel GNSS模擬器引擎發布兩大全新功能

    在GNSS測試技術日新月異的今天,每一次技術的革新都預示著行業發展的新方向。德思特自豪地宣布,Skydel GNSS模擬引擎正式推出兩大全新能力——GNSS暗室衛星到達角與相位仿真以及Skydel支持最多16塊SDR同時使用,助力測試精度與效率提升!
    的頭像 發表于 09-21 15:12 ?659次閱讀
    Skydel GNSS模擬器引擎發布<b class='flag-5'>兩大</b>全新功能

    淺析2024年半導體行業的兩大關鍵詞

    RISC-V(Reduced Instruction Set Computing – V)無疑正是當下芯片產業的熱門關鍵詞!使用最開放開源協議之一的BSD,只用十年就達到出貨量100億顆(ARM 指令集芯片達到相同出貨量用了近 30 年)的RISC-
    的頭像 發表于 09-19 13:01 ?1027次閱讀

    普強成功榮登兩大榜單

    普強憑借其深厚的技術積累和創新能力,不斷推出高性能、高質量的產品和解決方案,成功榮登兩大榜單,這是對普強卓越的技術實力和應用層面的肯定。
    的頭像 發表于 09-13 10:34 ?1601次閱讀

    谷泰微榮獲2024世界半導體大會兩大獎項

    在南京舉辦的世界半導體大會上,谷泰微憑借其卓越的表現和持續的創新能力,榮獲了“年度半導體模擬芯片最具成長力企業”和“年度半導體行業創新產品”兩大重要獎項。
    的頭像 發表于 09-12 15:00 ?698次閱讀
    主站蜘蛛池模板: 免费看一级特黄a大片 | 波多野结衣久久国产精品 | 韩国视频在线播放 | 五月深爱婷婷 | 国产人成精品香港三级古代 | 黄色网址网站在线观看 | 啪啪色视频 | 26uuu另类欧美亚洲曰本 | 成年人视频黄色 | xx网成人| 亚洲精品欧洲久久婷婷99 | 高清国产在线观看 | 欧美系列在线观看 | 1024国产你懂的日韩 | 美女黄页在线观看 | 人成xxxwww免费视频 | 偷窥自拍亚洲色图 | 午夜在线一区 | 四虎音影 | 四虎影视大全免费入口 | 禁漫画羞羞动漫入口 | 五月天丁香激情 | 欧美性野久久久久久久久 | 人人干人人搞 | 欧美精品一区视频 | 久草视频这里只有精品 | 热re久久精品国产99热 | 国内在线观看精品免费视频 | 日韩一区二区三区免费 | 乱码精品一区二区三区 | 4hu四虎永久免在线视 | 亚洲第一在线播放 | 韩国午夜影院 | 一级片免费在线 | 精品国产理论在线观看不卡 | 亚洲视频在线免费看 | 天天做天天干 | 欧美十次| 国产精品福利视频手机免费观看 | 欧美xx网站 | 一区在线免费观看 |