在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

對話系統(tǒng)中的多路召回和排序

深度學習自然語言處理 ? 來源:CS的陋室 ? 作者:CS的陋室 ? 2022-12-07 11:05 ? 次閱讀

最近和一些和對話系統(tǒng)不太了解的朋友聊了一下,發(fā)現(xiàn)其實很多人會把對話系統(tǒng)誤解為一個簡單、單一的系統(tǒng),然而實際上對話系統(tǒng)內(nèi)部的結(jié)構(gòu)可以很復(fù)雜,這個原因很多吧,可能被一些文章給誤導(dǎo)吧,其實一個比較成熟的對話系統(tǒng),內(nèi)部的結(jié)構(gòu)和組件是可以很多的,比較突出的就是多路召回以及其對應(yīng)的排序系統(tǒng)。這一期給大家介紹一下這兩個模塊。

在工業(yè)界,可能會因為各種原因,我們需要采用多路召回的方式來處理對話系統(tǒng),即分頭考慮多種答案的可能性,然后再篩選出最優(yōu)的回答。這一期就給大家介紹多路召回和排序的來龍去脈,以及常見的解決方案。

多路召回的原因

上一期(心法利器[78] | 端到端任務(wù)的拆解設(shè)計)我們有提到,對于一個任務(wù),如果比較復(fù)雜,我們是希望把任務(wù)進行拆解的,拆解之后各個擊破然后組裝回來,那么對于一個完整的對話系統(tǒng)也是如此,當然這也是它能被稱之為“系統(tǒng)”的理由,一般情況,我們會因為這些原因,把整個內(nèi)容回復(fù)部分做拆解,形成多路召回:

回復(fù)內(nèi)容的來源比較多樣。如一些問答類的,可能是問天氣、百科,這些資源的來源可能都不一樣,此時我們肯定是需要拆分多路召回逐個獲取的,甚至有些內(nèi)容就是生成的,例如閑聊之類的。

不同內(nèi)容的數(shù)據(jù)結(jié)構(gòu)不同,要構(gòu)造不同的存儲和檢索方案,例如結(jié)構(gòu)化的內(nèi)容,用mysql,文本檢索用ES,向量檢索可以用faiss,還有圖譜等。

有些可能是因為檢索內(nèi)容和對象不同,例如QQ和QA匹配,例如改寫前后的匹配等。

一些回復(fù)需要特別的構(gòu)造,如追問(你要問的是XXX嗎)、疑似問(你要問的問題是否在下面)、風控兜底(你說的這話不合適,對不起我還在學習)等。

因為很多原因,我們需要做多路召回,把多種不同內(nèi)容、不同數(shù)據(jù)結(jié)構(gòu)的資源,分路進行各自的召回,各自處理好后再排序。

多路的召回形式

由于上述原因,我們需要對對話系統(tǒng)進行多路召回,那么召回上,主要有哪些召回的鏈路呢。

檢索式

首先,是比較經(jīng)典的檢索技術(shù),這個其實對應(yīng)的比較經(jīng)典的檢索式對話,其實現(xiàn)在仍舊被廣泛使用,一些依賴數(shù)據(jù)、依賴知識背景的場景,這種檢索來找到合適的答案的方式是非常重要的,例如一些人物問答“魯迅的生卒年份”,客服場景“冰箱維修”,非常依賴檢索式,一般比較常用的檢索工具,有這些,大家可以根據(jù)實際情況進行選擇。當然,篇幅和時間原因,這里我只會提一些名詞,一些只是細節(jié)歡迎根據(jù)我提到的關(guān)鍵詞進行更加深入的學習。

對于結(jié)構(gòu)化的知識,就是能形成關(guān)系表的那種,mysql是一個比較好的選擇,畢竟結(jié)構(gòu)化查詢語言比較成熟,各種處理會比較簡單。

對于長文本、非結(jié)構(gòu)化的檢索,技術(shù)上用的就是傳統(tǒng)搜索中的倒排索引,工具上,單機其實可以自己寫,也可以用,python寫個dict就可以了,具體的可以參考之前我寫的詞典匹配的這篇(把后面dict中的value改成長文本id即可),但是由于一般資源會比較多,所以更傾向于用分布式的方式,Elasticsearch是很好的選擇。

向量檢索,應(yīng)該是現(xiàn)在比較潮流的玩法,在我們有一套比較好的向量的時候,就要做向量檢索,這個向量檢索的工具,單機推薦annoy,分布式推薦faiss,另外前面說的elasticseatch加上一些插件,如hnswlib也是可以用的。

另外還有一些更加前言的技術(shù),例如知識圖譜,這個我具體沒有接觸,聽到比較多的是neo4j,其他的有熟悉這個的伙伴歡迎在評論區(qū)補充。

生成式

當然,除了經(jīng)典的檢索式對話,還有大家比較喜歡聊起來的生成式,其實我的視角,工業(yè)界對生成式一直是比較謹慎的,主要原因有這么幾個:

生成式雖然非常直接,但是內(nèi)容不可控,很多時候會有一些不太合適的回答,作為面向用戶的產(chǎn)品,可控性要求很高,例如一些不小心的涉黃涉暴,其實風險很高的,甚至有一些問句和答句分別看著很合適但是放一起就不合適的情況,雖然不多,但是一旦出現(xiàn)被封號下架沒了就很血虧了。

生成式其實也會有很多領(lǐng)域以來知識支撐,一旦沒有知識,是會出現(xiàn)“一本書正經(jīng)的胡說八道”的情況。

寫到這,發(fā)現(xiàn)自己之前的對話系統(tǒng)系列文章寫過類似的文章,有關(guān)內(nèi)容生成的,在這里:前沿重器[24] | 聊聊對話系統(tǒng):內(nèi)容輸出。

多輪

但說到這里,仍舊還有一種比較特殊的召回情況,需要說,就是多輪。多輪是一種對話系統(tǒng)一種特有的形式,另外這里會分強多輪和弱多輪,簡單解釋下:

強多輪是進入到一個比較狹窄的多輪通道,基本都會限制在這個對話鏈路里,一般是一些任務(wù)型的對話可能會這么做,例如定機票,多半需要將對話封閉起來做多輪的追問。一般無明確的打斷,都更傾向于封閉處理,不大會和其他鏈路一起排序。

弱多輪是做對話內(nèi)容的信息繼承,在聊天過程可能會根據(jù)上輪信息給出進一步的回復(fù),這種情況多半會比較寬松,通常都會參與和其他召回鏈路一起排序。

因此,如果是弱多輪,其實就是增加一個多輪的鏈路處理就好了,而對于強多輪,一般會增加一個打斷判斷,如果不打斷,就這一路多輪召回就好了,如果需要打斷,再讓位給其他鏈路即可。

值得注意的是,多輪只是一個對話系統(tǒng)里的特殊情況,多輪里面的內(nèi)容,多半也逃不開檢索式和生成式這樣的形式。

多路召回下的排序

既然要分,后續(xù)肯定要合,多路召回對半就需要進行了排序。因為不同系統(tǒng)的不太一樣,所以簡單取一些情況簡單聊聊。

有用戶反饋

類似搜索和推薦系統(tǒng),有些場景的推薦系統(tǒng),是可以有用戶反饋的,例如一些客服系統(tǒng)之類的,用戶會給回復(fù)打分,例如“滿足”or“未滿足”,那就可以根據(jù)情況進行調(diào)整。既然有用戶的反饋,就可以開始利用起來,甚至是有些類似搜索的精排模型可以做。

因為不同系統(tǒng)中,用戶的反饋的占比、形式、可靠程度不同,采取的策略不太一樣,有些質(zhì)量比較差或者比例比較低的,甚至直接拋棄,這個其實很考驗算法對現(xiàn)狀和自己手里方案的理解,因為資料看的還不太夠,我先不展開吧,后面有機會展開聊。我可以明確的是,直接套用搜索或者推薦那一套,很多時候是真不可行。

無用戶反饋

無用戶反饋往往是對話系統(tǒng)中最常見的情況,一般有這幾個原因:

產(chǎn)品原因,很多產(chǎn)品沒有明確的用戶回復(fù),一般給了答案用戶就走了。

多答案的問題,一個提問可能有很多的回答方式,可能都是合理的,但用來做模型訓(xùn)練也不好評估。

答案形式的豐富性,多種答案類型做統(tǒng)一表征存在困難,本身表征建模也不好做。

因此,大部分對話系統(tǒng)很難有用戶反饋和有監(jiān)督的方式,這點真的得靠評測產(chǎn)品運營來做綜合評估然后來優(yōu)化的,在多鏈路的合并時,往往是使用比較簡單的規(guī)則和簡單的認為評分進行分級排序,根據(jù)每個鏈路的質(zhì)量、可靠性來進行綜合評估打分排序似乎是一個比較常規(guī)而且成本不高的方法。

這點不要以為非常罕見或者非常low,對于比較早起的搜索和排序系統(tǒng),也是用的類似的方式來做綜合排序的,畢竟這個方式可靠簡單。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:對話系統(tǒng)中的多路召回和排序

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    單次、多次對話與RTC對話AI交互模式,如何各顯神通?

    在這個充滿無限可能的AI時代,這些奇妙場景正逐步走進我們的生活。你可曾想象過,有一天家里的智能設(shè)備會化身相聲演員,和你幽默對答?或者,你的玩具能像知心好友一樣,陪你暢聊心事?單次對話、多次對話
    的頭像 發(fā)表于 04-02 18:18 ?443次閱讀
    單次、多次<b class='flag-5'>對話</b>與RTC<b class='flag-5'>對話</b>AI交互模式,如何各顯神通?

    多路電源并聯(lián)的系統(tǒng),濾波器之間如何實現(xiàn)良好的協(xié)同工作

    多路電源并聯(lián)濾波器協(xié)同工作是保證系統(tǒng)穩(wěn)定、可靠運行的關(guān)鍵。優(yōu)化電氣布局、合理選擇濾波器類型、確保良好的接地設(shè)計、優(yōu)化控制器參數(shù)、使用屏蔽和隔離措施以及定期檢查和維護是實現(xiàn)協(xié)同工作的關(guān)鍵策略。
    的頭像 發(fā)表于 03-13 15:56 ?243次閱讀
    在<b class='flag-5'>多路</b>電源并聯(lián)的<b class='flag-5'>系統(tǒng)</b><b class='flag-5'>中</b>,濾波器之間如何實現(xiàn)良好的協(xié)同工作

    多路輸出的開關(guān)電源

    多路輸出開關(guān)電源的設(shè)計及應(yīng)用原則 摘要:比較了諸多國內(nèi)外多路輸出電源的設(shè)計思想,提出并總結(jié)了現(xiàn)今多路輸出電源的設(shè)計原則。關(guān)鍵詞: 開關(guān)電源;多路輸出;設(shè)計原則1 引言對現(xiàn)代電子
    發(fā)表于 03-12 14:38

    NVIDIA大語言模型在推薦系統(tǒng)的應(yīng)用實踐

    推薦系統(tǒng)的主要任務(wù)在于根據(jù)用戶的過往行為預(yù)測其潛在興趣點,并據(jù)此推薦相應(yīng)的商品。在傳統(tǒng)的推薦系統(tǒng),當處理用戶請求時,會觸發(fā)多個召回模塊,例如熱門商品
    的頭像 發(fā)表于 03-05 09:30 ?686次閱讀
    NVIDIA大語言模型在推薦<b class='flag-5'>系統(tǒng)</b><b class='flag-5'>中</b>的應(yīng)用實踐

    多路溫度采集監(jiān)控系統(tǒng)

    在現(xiàn)代工業(yè)自動化領(lǐng)域,多路溫度采集監(jiān)控系統(tǒng)扮演著至關(guān)重要的角色。實時監(jiān)測生產(chǎn)環(huán)境的溫度變化,通過數(shù)據(jù)分析預(yù)警潛在的安全隱患,提高生產(chǎn)效率,保障產(chǎn)品質(zhì)量。 一、系統(tǒng)構(gòu)成
    的頭像 發(fā)表于 02-10 16:11 ?375次閱讀

    三星宣布大規(guī)模汽車召回計劃

    緊急召回。 據(jù)悉,Stellantis是此次召回計劃受影響最嚴重的品牌,共有155,096輛汽車存在安全隱患。具體涉及的車型包括2020年至2024年款的Jeep牧馬人4xe和2022年至2024年
    的頭像 發(fā)表于 02-10 09:32 ?938次閱讀

    小米汽車召回部分SU7電動汽車

    小米汽車科技有限公司介紹,此次召回范圍內(nèi)的部分車輛存在軟件策略問題。這一問題可能導(dǎo)致車輛授時同步出現(xiàn)異常,進而影響智能泊車輔助功能對靜態(tài)障礙物的探測能力。在智能泊車過程,如果系統(tǒng)無法準確探測到周圍的靜態(tài)障礙物,就有可能增加車輛
    的頭像 發(fā)表于 02-06 09:50 ?669次閱讀

    CMOS開關(guān)和多路復(fù)用器的Ron調(diào)制;它是什么及如何預(yù)測它對信號失真的影響

    電子發(fā)燒友網(wǎng)站提供《CMOS開關(guān)和多路復(fù)用器的Ron調(diào)制;它是什么及如何預(yù)測它對信號失真的影響.pdf》資料免費下載
    發(fā)表于 01-15 16:23 ?1次下載
    CMOS開關(guān)和<b class='flag-5'>多路</b>復(fù)用器<b class='flag-5'>中</b>的Ron調(diào)制;它是什么及如何預(yù)測它對信號失真的影響

    京東廣告生成式召回基于 NVIDIA TensorRT-LLM 的推理加速實踐

    、個性化召回、深度召回等),以召回大量候選商品。隨后,系統(tǒng)通過相對簡單的粗排模型對候選集進行初步篩選,縮小候選范圍,最后通過精排和重排模型,確定最終返回給用戶的推薦結(jié)果。 隨著大語言模
    的頭像 發(fā)表于 01-14 15:17 ?476次閱讀

    詳解Linux sort命令之掌握排序技巧與實用案例

    在linux系統(tǒng)使用過程,提供了sort排序命令,支持常用的排序功能。 常用參數(shù) sort命令支持很多參數(shù),常用參數(shù)如下: ? 短參數(shù) 長參數(shù) 說明 -n – number-sort
    的頭像 發(fā)表于 01-09 10:10 ?831次閱讀

    TimSort:一個在標準函數(shù)庫中廣泛使用的排序算法

    在計算機科學的領(lǐng)域,排序算法是每位學生必學的基礎(chǔ),而排序的需求是每位程序員在編程過程中都會遇到的。 在你輕松調(diào)用 .sort() 方法對數(shù)據(jù)進行排序時,是否曾好奇過,這個簡單的方法背后使用的是哪種
    的頭像 發(fā)表于 01-03 11:42 ?507次閱讀

    時間復(fù)雜度為 O(n^2) 的排序算法

    作者:京東保險 王奕龍 對于小規(guī)模數(shù)據(jù),我們可以選用時間復(fù)雜度為 O(n2) 的排序算法。因為時間復(fù)雜度并不代表實際代碼的執(zhí)行時間,它省去了低階、系數(shù)和常數(shù),僅代表的增長趨勢,所以在小規(guī)模數(shù)據(jù)情況下
    的頭像 發(fā)表于 10-19 16:31 ?1639次閱讀
    時間復(fù)雜度為 O(n^2) 的<b class='flag-5'>排序</b>算法

    存在短路風險,10萬輛比亞迪召回!全球汽車召回事件為何頻發(fā)

    電子發(fā)燒友網(wǎng)報道(文/梁浩斌)在9月底,比亞迪宣布召回近10萬輛車輛,包括海豚、元Plus兩款車型,引起了很大的關(guān)注。確實,今年比亞迪的銷量一直高歌猛漲,出現(xiàn)召回事件,自然會吸引更多目光。今年9月
    的頭像 發(fā)表于 10-11 09:09 ?7597次閱讀

    TPS54120排序和跟蹤

    電子發(fā)燒友網(wǎng)站提供《TPS54120排序和跟蹤.pdf》資料免費下載
    發(fā)表于 10-10 10:54 ?0次下載
    TPS54120<b class='flag-5'>排序</b>和跟蹤

    多路復(fù)用器應(yīng)用的防護

    電子發(fā)燒友網(wǎng)站提供《多路復(fù)用器應(yīng)用的防護.pdf》資料免費下載
    發(fā)表于 09-21 10:47 ?0次下載
    <b class='flag-5'>多路</b>復(fù)用器應(yīng)用<b class='flag-5'>中</b>的防護
    主站蜘蛛池模板: 手机看片国产免费久久网 | 国产美女视频一区二区二三区 | 亚洲jizzjizz中文在线播放 | 狠狠色丁香婷婷久久综合不卡 | 最新欧美一级视频 | 成人国产精品一级毛片视频 | 亚洲视频区| 一区二区三区四区在线不卡高清 | 手机看片日韩永久福利盒子 | 欧美一级片观看 | 色老头影视| 日本在线黄色 | 电影一区二区三区 | 亚洲二区在线观看 | 亚洲成在人天堂一区二区 | 日本人zzzwww | 国产精品久久婷婷六月丁香 | 久久夜色精品国产噜噜小说 | 激情网婷婷 | 高清国产亚洲va精品 | 欧美成人26uuu欧美毛片 | 国产精品三级在线观看 | 在线www天堂资源网 在线播放 你懂的 | 色天使亚洲 | 免费黄色的视频 | 欧美猛交xxx呻吟 | 免费特黄一区二区三区视频一 | 免费的色视频 | 国产美女亚洲精品久久久综合 | 六月综合网 | 日韩精品一级毛片 | 5x视频在线观看 | ts人妖在线观看 | 国产一级特黄aa大片爽爽 | 五月天亚洲 | 综合色99| 成年午夜一级毛片视频 | 免费黄色毛片 | 色多多免费视频观看区一区 | 国产真实灌醉美女疯狂弄 | 一级片aaaa |