在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

糾錯(cuò)技術(shù)的背景

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:CS的陋室 ? 作者:CS的陋室 ? 2020-10-10 11:01 ? 次閱讀

糾錯(cuò)是搜索引擎中一個(gè)非常有特色的模塊,對(duì)用戶輸入的內(nèi)容進(jìn)行改寫從而讓用戶得到正確的結(jié)果,有的時(shí)候也會(huì)帶有一些驚喜度,所以糾錯(cuò)技術(shù)是一個(gè)搜索體驗(yàn)的加分項(xiàng),近期突然對(duì)這塊有興趣,所以就了解了一下。

糾錯(cuò)技術(shù)的背景

人非圣賢,孰能無(wú)過(guò),別說(shuō)是搜索的時(shí)候,哪怕是我們打字、寫作文的時(shí)候,都會(huì)出現(xiàn)錯(cuò)字,一般的錯(cuò)別字不會(huì)對(duì)最終目標(biāo)帶來(lái)很大影響,且出現(xiàn)頻率很低,不拘小節(jié)的我們常常會(huì)忽略這樣的小問(wèn)題,但是,在搜索場(chǎng)景下,錯(cuò)別字意味著可能就搜不到內(nèi)容了,對(duì)于用戶而言,就是需求無(wú)法滿足,造成了很差的體驗(yàn),因此在搜索場(chǎng)景中,就很有必要去糾錯(cuò)。

錯(cuò)誤是如何產(chǎn)生的

要去糾錯(cuò),先要去看看錯(cuò)誤是怎么產(chǎn)生的。

首先是誤操作類型,這種類型可以從輸入法角度去看。

拼音輸入法。常會(huì)出現(xiàn)同音異形字,例如周節(jié)倫等。

筆畫輸入法或者手寫輸入法。常會(huì)出現(xiàn)形似字,例如博和傅。

然后是用戶的主觀理解,有的時(shí)候用戶只是聽(tīng)說(shuō)過(guò)而沒(méi)見(jiàn)過(guò),或者就是理解問(wèn)題,導(dǎo)致主動(dòng)地出入了錯(cuò)誤的內(nèi)容,例如飛揚(yáng)拔(跋)扈,然后有一些名詞,例如小說(shuō)、音樂(lè)、電影等,寫錯(cuò)字是非常容易的。

當(dāng)然,也有用戶圖方便,或者輸入問(wèn)題,導(dǎo)致直接輸入拼音或者拼音前綴,或者就是因?yàn)橛洃浀脑颍斿e(cuò)了。

當(dāng)然這里也要補(bǔ)充一些常見(jiàn)的問(wèn)題舉例:

諧音。深圳-森圳。

別字。師傅-師博。

中英文。Taylor swift-泰勒斯威夫特。

近義詞。愛(ài)情呼叫轉(zhuǎn)移-戀愛(ài)呼叫轉(zhuǎn)移。

形近字。高粱-高梁。

全拼。深圳-shenzhen。

拼音前綴。北京-bj。

內(nèi)容不完整。唐人街探案-唐人。

總之錯(cuò)誤千奇百怪。理解錯(cuò)誤產(chǎn)生的機(jī)理,我們就可以嘗試去處理這些問(wèn)題。

詞典與規(guī)則方法

詞典是搜索系統(tǒng)中非常常用的方法,詞典具有高速、高準(zhǔn)的優(yōu)點(diǎn),如果詞典的覆蓋度高,甚至可以達(dá)到高召回的效果,因此詞典基本是搜索系統(tǒng)中的核心存在,我們不應(yīng)該小看他,而是盡可能挖掘他的潛能。

詞典方法,說(shuō)白了就是對(duì)query找對(duì)應(yīng)詞典里有沒(méi)有,如果有就改寫過(guò)去,這種方法的優(yōu)點(diǎn)在于速度快,而難點(diǎn)在于怎么去挖掘這個(gè)詞典。

至于怎么挖掘這個(gè)詞典,方法有很多底層數(shù)據(jù)庫(kù)抽取,用戶日志等,都有很多構(gòu)建起這樣的詞典,能夠大大降低耗時(shí),復(fù)雜度至于query和單詞長(zhǎng)度有關(guān)。那么一般都有什么詞典呢,我們來(lái)一個(gè)一個(gè)看看。

拼音和拼音前綴詞典。先將query或者單詞轉(zhuǎn)為拼音,然后通過(guò)通過(guò)拼音召回對(duì)應(yīng)的結(jié)果,完成糾錯(cuò)。

別字詞典,記錄一些常見(jiàn)的錯(cuò)別字,例如百度的形近詞表就很不錯(cuò)(就在百度百科里面)。

其他改寫字典。一般基于具體業(yè)務(wù)來(lái)改寫,例如用戶輸入唐人街探案,其實(shí)唐人街探案有3部,我們應(yīng)該給那個(gè),需要基于熱度等方面去改寫到具體最合適的一部。

詞典只是能夠匹配到合適的結(jié)果,但是我們需要知道的是,改寫的內(nèi)容不能和原來(lái)差距太遠(yuǎn),否則會(huì)出現(xiàn)很多意料之外的結(jié)果,因此改寫不能大改,只能改微調(diào),否則出來(lái)的結(jié)果會(huì)讓用戶感到很懵逼。控制的方法主要是編輯距離。

所謂的編輯距離,就是改寫前到改寫后,需要經(jīng)過(guò)的操作多少,說(shuō)人話就是兩句話的不同點(diǎn)有幾個(gè),精確到字級(jí)別。深圳-森圳的編輯距離就是1。通過(guò)編輯距離的約束,一般能夠讓兩者的差距不是很大。

我知道很多人熱衷于用語(yǔ)義相似度之類的操作,不管別的什么方法,編輯距離一定要約束,用戶強(qiáng)調(diào)的是直觀感受,語(yǔ)義相近與否不是他們第一個(gè)關(guān)心的,只有當(dāng)字相近的結(jié)果不好的時(shí)候考慮語(yǔ)義相近才是用戶的實(shí)際反映,且錯(cuò)別字帶來(lái)的語(yǔ)義變化非常大,此處用予以相似度其實(shí)不完全合適。

模型類方法

說(shuō)是詞典和規(guī)則好處很多,但是在泛化能力上,模型還是很強(qiáng)的。那么在模型視角下,其實(shí)會(huì)分為下面3個(gè)步驟進(jìn)行分析處理。

錯(cuò)誤診斷。即判斷有沒(méi)有錯(cuò)。

修正召回。召回可能的修改項(xiàng)。保證召回率

修正確認(rèn)。判斷最終需要的修改項(xiàng)。保證準(zhǔn)確率。

當(dāng)然,如果模型足夠強(qiáng)力,召回和確認(rèn)兩個(gè)步驟也可以合并,具體看準(zhǔn)招和耗時(shí)了。

其實(shí)這個(gè)思路最廣泛的應(yīng)用就是推薦系統(tǒng),召回和排序分離,這個(gè)我在大概是去年很早的一篇文章里談到在這個(gè),這是推薦系統(tǒng)里面非常重要的思想,這個(gè)思想其實(shí)在很多地方可以遷移下面的一條公眾號(hào)文章。

至于模型層面,有下面的思路。

kenlm統(tǒng)計(jì)語(yǔ)言工具。運(yùn)用統(tǒng)計(jì)學(xué)方法進(jìn)行語(yǔ)言建模從而檢測(cè)和修正錯(cuò)誤。

rnn_attention。RNN加上attention還是一個(gè)非常有意思的方法。

rnn_crf模型:說(shuō)起來(lái)你們可能不信,這個(gè)思路來(lái)自阿里2016參賽中文語(yǔ)法糾錯(cuò)比賽的第一名的方法。

seq2seq_attention模型:比RNN強(qiáng)一些,長(zhǎng)文本效果不錯(cuò),但是容易過(guò)擬合。

transformer:線性優(yōu)秀的序列表征模型,大家懂的。

bert:中文微調(diào),最妙的是mask可協(xié)助糾正錯(cuò)別字。

conv_seq2seq模型:基于Facebook出品的fairseq,在NLPCC-2018的中文語(yǔ)法糾錯(cuò)比賽中,是唯一使用單模型并取得第三名的成績(jī)。

小結(jié)

怎么說(shuō)呢,目前我還只是在探索,深度不是很夠,后面有所補(bǔ)充,再和大家交流,參考文獻(xiàn)放這里吧:

中文文本糾錯(cuò)算法--錯(cuò)別字糾正的二三事:https://zhuanlan.zhihu.com/p/40806718

pycorrector:https://github.com/shibing624/pycorrector

中文文本糾錯(cuò)算法走到多遠(yuǎn)了?:https://blog.csdn.net/sinat_26917383/article/details/86737361

責(zé)任編輯:lq
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 搜索引擎
    +關(guān)注

    關(guān)注

    0

    文章

    119

    瀏覽量

    13389
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3325

    瀏覽量

    49240
  • 語(yǔ)言建模
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    6279

原文標(biāo)題:搜索系統(tǒng)中的糾錯(cuò)問(wèn)題

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    背景抑制光電開(kāi)關(guān)的設(shè)計(jì)及應(yīng)用

    進(jìn)行統(tǒng)計(jì)分析,采用數(shù)字信號(hào)處理技術(shù)等,進(jìn)一步提高背景抑制效果和檢測(cè)精度。比如在生產(chǎn)線上檢測(cè)微小零件時(shí),通過(guò)對(duì)多次采集的信號(hào)進(jìn)行統(tǒng)計(jì)分析,能更準(zhǔn)確地判斷零件的有無(wú)和位置。 輸出與接口功能 ·開(kāi)關(guān)量輸出
    發(fā)表于 01-11 13:43

    接近感應(yīng)單片機(jī)在背景抑制光電開(kāi)關(guān)上的應(yīng)用

    反射光,否則視為背景反射光并進(jìn)行抑制。還可以結(jié)合更復(fù)雜的算法,如對(duì)多次采集信號(hào)進(jìn)行統(tǒng)計(jì)分析、采用數(shù)字信號(hào)處理技術(shù)等,進(jìn)一步提高背景抑制效果和檢測(cè)精度。 ·輸出控制 :根據(jù)背景抑制算法的
    發(fā)表于 12-27 15:38

    基于 XD08M3232 接近感應(yīng)單片機(jī)的背景抑制光電開(kāi)關(guān)設(shè)計(jì)與應(yīng)用

    為目標(biāo)物體反射光,否則視為背景反射光并進(jìn)行抑制。還可以結(jié)合更復(fù)雜的算法,如對(duì)多次采集信號(hào)進(jìn)行統(tǒng)計(jì)分析、采用數(shù)字信號(hào)處理技術(shù)等,進(jìn)一步提高背景抑制的效果和檢測(cè)精度。 輸出控制程序 :根據(jù)背景
    發(fā)表于 12-16 18:56

    探討大模型時(shí)代背景下數(shù)據(jù)存儲(chǔ)的變革之道

    在當(dāng)今數(shù)字化浪潮洶涌澎湃的時(shí)代背景下,大模型技術(shù)猶如一顆璀璨的明星,照亮了科技發(fā)展的廣闊蒼穹,而存儲(chǔ)技術(shù)的變革,作為這一進(jìn)程中的堅(jiān)實(shí)基石,正日益成為產(chǎn)業(yè)界與學(xué)術(shù)界共同矚目的核心焦點(diǎn)。
    的頭像 發(fā)表于 12-16 14:05 ?311次閱讀

    友思特方案 瞬時(shí)糾錯(cuò)的智慧算法:鋰電與半導(dǎo)體多類型視覺(jué)檢測(cè)助力高效高質(zhì)生產(chǎn)

    為新能源鋰電行業(yè)賦能第三站:豐富智慧的多類型視覺(jué)檢測(cè)系統(tǒng)!鋰電行業(yè)產(chǎn)線檢測(cè)效率和準(zhǔn)確性決定了生產(chǎn)的投產(chǎn)比與產(chǎn)品的出貨質(zhì)量。友思特針對(duì)多種需求開(kāi)發(fā)了針對(duì)性的相機(jī)&AI視覺(jué)檢測(cè)方案,助力新能源產(chǎn)線瞬時(shí)糾錯(cuò)、保證品質(zhì)。
    的頭像 發(fā)表于 12-05 13:41 ?213次閱讀
    友思特方案 瞬時(shí)<b class='flag-5'>糾錯(cuò)</b>的智慧算法:鋰電與半導(dǎo)體多類型視覺(jué)檢測(cè)助力高效高質(zhì)生產(chǎn)

    無(wú)人機(jī)巡檢技術(shù)背景及多重優(yōu)勢(shì)

    無(wú)人機(jī)巡檢技術(shù)背景及多重優(yōu)勢(shì) 近年來(lái),隨著無(wú)人機(jī)技術(shù)的不斷革新和普及,無(wú)人機(jī)巡檢系統(tǒng)應(yīng)運(yùn)而生并迅速發(fā)展。傳統(tǒng)的巡檢手段,如人工巡查或靜態(tài)監(jiān)控設(shè)備,已難以滿足現(xiàn)代社會(huì)對(duì)于高效、智能巡檢的需求。無(wú)人機(jī)
    的頭像 發(fā)表于 11-27 17:21 ?741次閱讀

    TMS320C64x+和TMS320C674x的檢錯(cuò)糾錯(cuò)機(jī)制

    電子發(fā)燒友網(wǎng)站提供《TMS320C64x+和TMS320C674x的檢錯(cuò)糾錯(cuò)機(jī)制.pdf》資料免費(fèi)下載
    發(fā)表于 10-12 11:27 ?0次下載
    TMS320C64x+和TMS320C674x的檢錯(cuò)<b class='flag-5'>糾錯(cuò)</b>機(jī)制

    DaVinci技術(shù)背景和規(guī)格

    電子發(fā)燒友網(wǎng)站提供《DaVinci技術(shù)背景和規(guī)格.pdf》資料免費(fèi)下載
    發(fā)表于 10-09 09:29 ?0次下載
    DaVinci<b class='flag-5'>技術(shù)</b><b class='flag-5'>背景</b>和規(guī)格

    華怡豐開(kāi)發(fā)出背景抑制系列傳感器產(chǎn)品

    英文全稱background suppression 即背景抑制的意思,背景抑制光電開(kāi)關(guān)指的是一種檢測(cè)距離不受背景顏色影響的光電傳感器。
    的頭像 發(fā)表于 09-09 14:15 ?520次閱讀

    SDV的發(fā)展背景背景與功能

    SDV技術(shù)不僅是對(duì)傳統(tǒng)車輛功能的增強(qiáng),更是對(duì)汽車性能、安全性及可定制性的一種全新定義。本文將深入探討SDV技術(shù)背景、功能。 1. SDV技術(shù)的發(fā)展
    的頭像 發(fā)表于 08-29 10:23 ?514次閱讀

    探討數(shù)字化背景下PMC的挑戰(zhàn)和機(jī)遇

    亟待解決的問(wèn)題。 ? 一、數(shù)字化背景下的PMC挑戰(zhàn) 在數(shù)字化時(shí)代,信息的爆炸式增長(zhǎng)和快速傳播給PMC管理帶來(lái)了前所未有的挑戰(zhàn)。傳統(tǒng)的PMC管理往往依賴于人工統(tǒng)計(jì)和經(jīng)驗(yàn)判斷,難以做到精確預(yù)測(cè)和及時(shí)響應(yīng)。而數(shù)字化技術(shù)以其強(qiáng)大的數(shù)據(jù)處理
    的頭像 發(fā)表于 07-05 11:03 ?535次閱讀

    國(guó)內(nèi)首顆,精準(zhǔn)糾錯(cuò)!德明利TWSC2985系列:支持4K LDPC技術(shù)的存儲(chǔ)芯片

    TWSC 2985 系列SD6.0存儲(chǔ)芯片 國(guó)內(nèi)首顆支持4K LDPC糾錯(cuò)技術(shù) 增強(qiáng)糾錯(cuò)、耐久可靠、性能升級(jí) ? 隨著移動(dòng)計(jì)算和AI技術(shù)對(duì)數(shù)據(jù)存儲(chǔ)需求的增加,德明利憑借在閃存
    發(fā)表于 04-26 13:44 ?1118次閱讀
    國(guó)內(nèi)首顆,精準(zhǔn)<b class='flag-5'>糾錯(cuò)</b>!德明利TWSC2985系列:支持4K LDPC<b class='flag-5'>技術(shù)</b>的存儲(chǔ)芯片

    背景音樂(lè)和藍(lán)牙進(jìn)來(lái)的音樂(lè),如何共享一個(gè)功放和喇叭?

    準(zhǔn)備設(shè)計(jì)一個(gè)電路,包含用作背景音樂(lè)的芯片,和藍(lán)牙芯片,兩路音樂(lè)共用功放和喇叭。上電后默認(rèn)由背景音樂(lè)芯片發(fā)出聲音,如果藍(lán)牙芯片連接上之后,播放 切換到藍(lán)牙輸出的音樂(lè)(不一定要立體聲)。 現(xiàn)在的問(wèn)題是
    發(fā)表于 04-12 21:15

    LoRa調(diào)制解調(diào)器的優(yōu)勢(shì) LoRa調(diào)制解調(diào)器和Wi-Fi的區(qū)別

    LoRa調(diào)制解調(diào)器采用專利擴(kuò)頻調(diào)制和前向糾錯(cuò)技術(shù),它融合了數(shù)字?jǐn)U頻、數(shù)字信號(hào)處理和前向糾錯(cuò)編碼技術(shù)
    的頭像 發(fā)表于 03-15 18:08 ?2153次閱讀
    LoRa調(diào)制解調(diào)器的優(yōu)勢(shì) LoRa調(diào)制解調(diào)器和Wi-Fi的區(qū)別

    黑白通吃的BGS背景抑制光電是如何做出來(lái)的?

    BGS英文全稱backgroundsuppression即背景抑制的意思,背景抑制光電開(kāi)關(guān)指的是一種檢測(cè)距離不受背景顏色影響的光電傳感器。傳統(tǒng)的漫反型光電傳感器根據(jù)反射的光亮值進(jìn)行檢測(cè),由于光亮值
    的頭像 發(fā)表于 02-19 12:48 ?2025次閱讀
    黑白通吃的BGS<b class='flag-5'>背景</b>抑制光電是如何做出來(lái)的?
    主站蜘蛛池模板: 色视频免费观看 | 亚洲国产午夜看片 | 97av在线播放 | xxxx黄| 色噜噜狠狠狠色综合久 | 色综合亚洲 | 黄色一级视频欧美 | 国产午夜精品久久理论片小说 | 美女网站色黄 | 欧美三级色 | 亚洲va久久久噜噜噜久久男同 | 天天操丝袜 | 国产片一级特黄aa的大片 | 黄鳝钻进下面好爽小说 | 久久www免费人成看片色多多 | 给我免费播放片黄色 | 精品久久久久久久久久 | 乱人伦小说短篇 | 免费毛片网站 | 天天色综合5 | 操美女免费网站 | 日本特级淫片免费看 | 男女在线免费视频 | 色综合色综合色综合色综合 | www.99热.com| 婷婷色综合久久 | 手机在线观看免费视频 | 视频在线二区 | av2021天堂网手机版 | 亚洲一级影院 | 精品久久久久久 | 精品国产成人三级在线观看 | 激情网页 | 日本三级香港三级人妇网站 | 思思久久96热在精品不卡 | 亚洲人成网站在线 | 亚洲一卡2卡3卡4卡5卡乱码 | 鲁一鲁色一色 | 黄色大片播放 | 狠狠色噜噜狠狠狠狠97影音先锋 | 欧美激情在线 |