在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

糾錯框架的基本結構

深度學習自然語言處理 ? 來源:CS的陋室 ? 作者:CS的陋室 ? 2020-10-10 11:04 ? 次閱讀

糾錯框架的基本結構

雖然糾錯只是一個看著簡單的任務,但是實際上已經構建成了一個非常完整的系統,根據這個系統兼顧很多事情,舉幾個點:

充分縮小范圍,防止過糾,畢竟糾錯是NLP系統的上游,過糾的代價非常大。

充分挖掘可能錯誤的位置,在詞匯支持的情況,找到可能正確的結果,保證召回率。

各種抽取特征,能通過更加嚴謹的方式在多個候選中找到最優的結果。

然后我們來看看一個比較OK的糾錯系統結構是什么樣的,三大步驟:

錯誤檢測:檢測句子錯誤的部分,后續只對這個部分進行錯誤糾正。

候選召回:根據識別的錯誤進行針對性的修改,這塊依賴候選集。

候選排序:錯誤可能有很多。召回的結果也有很多,那個才是最優解,這步需要通過一定的方式得到最優結果。

錯誤檢測

錯誤檢測是文本進入糾錯體系的一個大門,設立他的目的有這幾個:

縮小糾正范圍,降低后續流程的壓力。

減少過糾,保證準確率,用戶自己輸對了卻改錯了體驗非常差。

換言之,我們需要在錯誤檢測中做的是,找到句子中可能出現錯誤的位置,提取出來任務就完成了,那么,這塊有什么方法呢。

最簡單的一種方法,就是結合詞典去做,這個詞典其實已經有比較通用的,那就是jieba的詞典(idf.txt),對于絕大部分人而言,輸入的東西一般都是TOP的,那么一些未見過的,即未登錄詞,就很可能是錯誤的內容了。但需要注意的是,領域內的詞匯我們需要補充,詞典覆蓋率要足夠的高,這樣識別的準確率才會夠高。

第二個方法也是一個無監督的方法——用語言模型。語言模型能評判一個句子出現的概率,換言之,如果句子出現的頻次足夠低,那這里面就很可能有錯誤的詞匯,再精確到句子中的每個位置,那就是一個局部的n-gram的條件概率了,如果概率比整個句子明顯低,那就說明這個位置或者說這個位置附近可能存在錯誤點,我們可以拿出來。其實這個應該這里幾個方法中門檻最低的一個了,只需要語料,不需要挖掘覆蓋率足夠大的詞典,也不需要標注樣本,直接可以做。

第三個想說的方法就是序列標注的方法。分詞和NER其實都可以抽象為序列標注問題,錯誤檢測也可以,簡單的其實就是整個句子中,有錯誤的標注為1,沒錯誤的標注為0,然后通過CRF之類的方法來進行預測,從而完成抽取。這個能很好的把控準確性,效果還是會比較好的,但問題在于這種標注樣本,可能比常規的ner樣本更難拿到。

pycorrector我前面提到過,就用了上面1、2兩種方法,在開放域里面其實效果不錯,但是在垂域,我們就需要更多的語料甚至是重新構建里面涉及的模型和詞典。

而在我的實踐中,又有如下的經驗,大家可以參考:

錯誤檢測這塊由于只是糾錯系統中的其中一部分,后續還有大量的步驟可以控制,所以我們并不需要對這步做非常高的準確性的要求,抱著“寧可錯殺也不放過”的思路去做,保證真正錯的部分能被拿出來即可,對準確率可以很大程度的放松。

無論是上面哪種方法,檢測錯誤的時候都要注意,檢測出錯誤的位置可能不是真的問題點,而可能識別出來的未知的附近,因此要擴大召回的話,附近的可以都挑出來試試一起處理。

候選召回

在指導錯誤的位置以后,我們就要開始對癥下藥了,那么,什么是可能的藥,我們就要開始找了,這就是候選召回的主要任務,針對錯誤點,我們找可能正確的結果。要找到正確的結果,主要是兩種方式:基于詞典的和基于NLG的。

基于詞典的方式是比較經典而且在現在還是比較常用的方法,說白了我們就要去找一些詞匯,我們叫做“混淆集”,也就是一個簡單的kv對,遇到什么詞,我們就給出一些候選的結果,這個的結果非常簡單,但是挖掘會非常困難,搜索領域常用的方式就是共現query,大部分情況下,用戶會在沒有得到正確結果的時候修正結果重新搜索,所以共現query是一個非常好的挖掘資源。

基于詞典的方式糾錯的量總有上限,但是總有一些難以召回的情況,因此借助一些NLG的方式,可以擴大召回,這個NLG,是一種文本生成的方式,可以根據上下文糾正的句子,給出一些可能的結果。但是這個方案的缺點是非常依賴平行樣本,即一個錯誤、一個正確的樣本,這個獲取往往會比較難。

候選排序

現在對一個我句子,我們手里都有很多候選的結果,這里的候選排序主要有兩個目的:

判斷這么多候選結果中選出最好的幾個。

最好的幾個相比原來的句子要足夠好,才能被糾。

這里,我們需要持續思考的是,這個排序規則改怎么定。

最簡單的方式就是使用語言模型的perplexity,即混淆度,這是用來一個句子他真的是句子的打分,一般而言這個正常無錯的句子ppl就會比較小,有錯的句子是ppl的比較大,可以用這個指標來衡量最佳的糾錯結果是什么。

光一個ppl的評判是不夠的,不僅僅是ppl的相對量,還有絕對量,還有就是pl雖然下降但是還是很高,還有和ppl無關的因素,如拼音的相似度、和原句的相似度等,因此可以先升級為機器學習,把前面提到的指標抽取為特征,通過簡單的機器學習進行計算。

進一步地,同樣可以使用平行樣本,通過深度學習的方式來衡量是否需要糾正。

其他相關

糾錯只是一個系統,我們要在里面添加很多的零件完成各個我們拆解的任務,我們來看看有什么需要做的事情:

語言模型。語言模型在糾錯中起到了至關重要的作用,因此一個好的語言模型非常重要,而影響語言模型效果的很大一塊因素就是數據,尤其是統計語言模型,通過調整數據集的分布,例如使用特定垂域的語料進行訓練,能有效提升最終的效果,但要注意不要把錯誤句子過多的引入到模型中。

混淆集。混淆集用于候選召回,如果正確結果無法被召回,則效果會受到很大影響,因此我們需要通過多渠道挖掘,在github、知乎等網站,加上一些論文提到的數據中收集外部數據,同時通過用戶query,尤其是共現query來獲取一些用戶容易混淆的錯誤。有一篇文章提到了,混淆集是糾錯的上限,正確答案召回不到,好的錯誤檢測和候選排序都沒用。

規則。糾錯系統中需要大量的規則,錯誤檢測階段衡量錯誤的閾值我們要用規則卡,排序階段我們也需要一些提權降權保證最終我們需要的內容能排在前面,例如一些專有名詞的保護,”電池“不能被改為”滇池“,”嬴政“不能被改為”行政“。這些規則看著簡單,但是要想提出這些規則,必須對數據有足夠的了解。

小結

一連幾篇討論了糾錯,對糾錯問題有了比較完整的理解,可以知道一個簡單的問題可以進行細化然后構建出完整的系統。最后我放幾篇比較好的參考文章,大家可以繼續深入閱讀。

平安糾錯:https://zhuanlan.zhihu.com/p/159101860

中文(語音結果)的文本糾錯綜述:https://blog.csdn.net/lipengcn/article/details/82556569?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2

責任編輯:lq
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 框架
    +關注

    關注

    0

    文章

    404

    瀏覽量

    17811
  • 糾錯
    +關注

    關注

    0

    文章

    5

    瀏覽量

    13336
  • 語言模型
    +關注

    關注

    0

    文章

    560

    瀏覽量

    10695

原文標題:深入討論糾錯系統

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    STM32如何移植Audio框架

    最近在學習音頻解碼,想用一下Audio框架。 1、這個該如何移植到自己創建的BSP并對接到device框架中?看了官方移植文檔沒有對沒有對該部分的描述。 2、我只想實現一個簡單的播放功能,只用一個DAC芯片(比如CS4344)是否就能達到我的需求?
    發表于 04-01 08:08

    飛凌嵌入式ElfBoard ELF 1板卡-字符驅動之字符驅動框架描述

    字符驅動框架的核心組件包括以下部分: 文件操作函數 (file_operations):字符驅動框架通過 file_operations結構體定義了一組函數指針,用于處理設備文件的各種操作,如打開
    發表于 03-14 09:45

    汽車框架結構焊接技術探析

    汽車框架結構作為車輛安全性和整體性能的關鍵組成部分,其制造工藝中的焊接技術尤為重要。焊接不僅影響著汽車的結構強度和耐用性,還直接關系到生產效率和成本控制。隨著汽車行業對輕量化、高強度材料的需求
    的頭像 發表于 02-27 09:42 ?274次閱讀

    隔離電源方案電路框架

    隔離電源方案電路框架
    發表于 02-13 15:18 ?10次下載

    AI開發框架集成介紹

    隨著AI應用的廣泛深入,單一框架往往難以滿足多樣化的需求,因此,AI開發框架的集成成為了提升開發效率、促進技術創新的關鍵路徑。以下,是對AI開發框架集成的介紹,由AI部落小編整理。
    的頭像 發表于 01-07 15:58 ?492次閱讀

    SSM框架的源碼解析與理解

    SSM框架(Spring + Spring MVC + MyBatis)是一種在Java開發中常用的輕量級企業級應用框架。它通過整合Spring、Spring MVC和MyBatis三個框架,實現了
    的頭像 發表于 12-17 09:20 ?889次閱讀

    SSM框架的優缺點分析 SSM在移動端開發中的應用

    :Spring框架是企業型開發使用的成熟的開源框架,能夠節省成本。SSM框架使用起來更加輕快,能夠更合理地分配資源,使用最小的資源完成當前的需求。 節省開發時間 :SSM框架采用典型
    的頭像 發表于 12-16 18:18 ?2181次閱讀

    大語言模型開發框架是什么

    大語言模型開發框架是指用于訓練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹大語言模型開發框架
    的頭像 發表于 12-06 10:28 ?484次閱讀

    JavaWeb框架比較

    JavaWeb框架為開發人員提供了構建Web應用程序所需的基礎設施和組件,每種框架都有其獨特的特點和適用場景。以下是對幾種主流JavaWeb框架的比較: Spring MVC 優點
    的頭像 發表于 11-25 09:14 ?621次閱讀

    卷積神經網絡的實現工具與框架

    : TensorFlow是由Google Brain團隊開發的開源機器學習框架,它支持多種深度學習模型的構建和訓練,包括卷積神經網絡。TensorFlow以其靈活性和可擴展性而聞名,適用于研究和生產環境。 特點: 靈活性: TensorFlow提供了豐富的API,允許用戶自定義復雜的神經網絡
    的頭像 發表于 11-15 15:20 ?612次閱讀

    TMS320C64x+和TMS320C674x的檢錯糾錯機制

    電子發燒友網站提供《TMS320C64x+和TMS320C674x的檢錯糾錯機制.pdf》資料免費下載
    發表于 10-12 11:27 ?0次下載
    TMS320C64x+和TMS320C674x的檢錯<b class='flag-5'>糾錯</b>機制

    Scrum框架的模式、過程和見解

    電子發燒友網站提供《Scrum框架的模式、過程和見解.pdf》資料免費下載
    發表于 08-12 09:36 ?0次下載

    bootstrap框架和vue框架的區別

    Bootstrap和Vue都是目前非常流行的前端開發框架,它們各自具有獨特的優勢和特點。 設計理念 Bootstrap是一個基于HTML、CSS和JavaScript的前端開發框架,主要用于快速構建
    的頭像 發表于 07-11 09:55 ?1366次閱讀

    bootstrap框架用什么軟件開發

    Bootstrap是一個流行的前端框架,用于快速開發響應式和移動優先的Web應用程序。它提供了一套預定義的CSS和JavaScript組件,使得開發者可以快速構建出漂亮的用戶界面
    的頭像 發表于 07-11 09:50 ?771次閱讀

    TensorFlow與PyTorch深度學習框架的比較與選擇

    深度學習作為人工智能領域的一個重要分支,在過去十年中取得了顯著的進展。在構建和訓練深度學習模型的過程中,深度學習框架扮演著至關重要的角色。TensorFlow和PyTorch是目前最受歡迎的兩大深度
    的頭像 發表于 07-02 14:04 ?1549次閱讀
    主站蜘蛛池模板: 国模私拍一区二区三区 | 视频三区| 欧美成人午夜不卡在线视频 | 91网址在线播放 | 亚洲国产七七久久桃花 | 怡红院最新网址 | 狼色在线视频 | 欧美狠狠| 九九视频只有精品 | 国产女主播在线播放一区二区 | 天天干天天草 | 钻石午夜影院 | 男人呻吟双腿大开男男h互攻 | 米奇色影院| 国产一级影院 | 天天操天天射天天操 | 天天精品视频 | 国产精品igao在线观看樱花日本 | 一色屋网站 | 97爱爱| 欧美福利一区 | 岛国毛片一级一级特级毛片 | 最新日本免费一区二区三区中文 | 亚洲男人天堂岛 | 可以免费播放的在线视频 | 黄色免费网站在线观看 | 久久中文字幕综合婷婷 | 亚洲最大成人网色 | 新激情五月 | 日本三级11k影院在线 | 国产成年女一区二区三区 | 黑人黄色片 | 黄a视频在线观看 | 国产内地激情精品毛片在线一 | 毛片啪啪 | 国产 麻豆 欧美亚洲综合久久 | 久久综合九色综合网站 | 色在线视频免费 | 九九久久久久午夜精选 | 午夜在线观看视频在线播放版 | 国产精品天天影视久久综合网 |