在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用于中文縮略詞預(yù)測的序列生成模型研究

深度學(xué)習(xí)自然語言處理 ? 來源:知識工場 ? 作者:曹愷燕 ? 2022-11-14 14:16 ? 次閱讀

研究背景

縮略詞是單詞或短語的縮寫形式。為了方便寫作和表達(dá),在文本中提及某個實(shí)體時,人們傾向于使用縮寫名稱而不是它的完整形式(名稱)。理解縮略詞,尤其是實(shí)體的縮寫名稱,是知識圖譜構(gòu)建和應(yīng)用的關(guān)鍵步驟。縮略詞處理主要包括三個任務(wù):縮略詞擴(kuò)展,縮略詞識別和提取,以及縮略詞預(yù)測。毫無疑問,縮略詞處理在各種自然語言處理 (NLP) 任務(wù)中發(fā)揮著重要作用例如信息檢索、實(shí)體鏈接等任務(wù)。

在本文中,我們重點(diǎn)關(guān)注縮略詞處理的第三個任務(wù),即縮略詞預(yù)測,其目標(biāo)是預(yù)測實(shí)體完整形式的可能縮寫形式。縮略詞實(shí)際上是一個子序列,由一個詞或一些字符按完整形式的順序排列。不同于英文縮略詞(通常是首字母縮略詞),中文縮略詞形式更加復(fù)雜多樣。

如表 1 所示,縮略詞可以是位于實(shí)體完整形式中的第一個詞(“復(fù)旦”)也可以是最后一個詞(“迪士尼”),并且可能包含實(shí)體中一些不連續(xù)但有序的字符(“北大”)。而且,一個實(shí)體的縮略詞可以有多種形式(“央視”或“中央臺”)。因此,作為一項(xiàng)更具挑戰(zhàn)性的任務(wù),中文縮略詞預(yù)測已成為近年來的研究熱點(diǎn)。

▲ 表1. 中文縮略詞的幾個實(shí)例

現(xiàn)有的中文縮略詞預(yù)測方法可以被認(rèn)為是基于特征的方法。它們通常是將縮略詞預(yù)測作為序列標(biāo)記問題,即對每個 token 作二分類,去判斷是否該字符是否應(yīng)保留在縮略詞中。盡管取得了成就,但以前的方法仍然有以下缺點(diǎn):一方面,他們只使用轉(zhuǎn)移矩陣來尋找最高概率的標(biāo)簽,未能充分利用標(biāo)簽依賴關(guān)系;另一方面,他們忽略了實(shí)體相關(guān)文本的豐富信息,只利用實(shí)體本身的語義。事實(shí)上,我們可以獲取足夠的與給定實(shí)體相關(guān)的文本例如百度百科文本、景點(diǎn) POI 實(shí)體評論和 query 文本,能提供模型預(yù)測縮寫的信號

為了解決這些問題,我們將中文縮略詞預(yù)測看作從全稱實(shí)體序列到縮略詞序列的定長機(jī)器翻譯任務(wù)。貢獻(xiàn)包括,首先,我們提出了一種用于中文縮略詞預(yù)測的序列生成模型。其次,我們將實(shí)體相關(guān)上下文納入中文縮略詞預(yù)測任務(wù),為模型提供了更多語義信息。最后,我們構(gòu)建了旅游中文縮略詞數(shù)據(jù)集。此外,我們在飛豬搜索系統(tǒng)上部署的縮略詞實(shí)現(xiàn)了 2.03% 的轉(zhuǎn)化率提升。

研究框架

問題建模:針對給定的一個全稱實(shí)體 和其對應(yīng)的相關(guān)文本,CETAR 能生成一個其對應(yīng)的縮略詞序列。

模型框架:我們的模型框架由上下文增強(qiáng)編碼器和縮略-恢復(fù)解碼器組成。圖 2 是 CETAR 模型架構(gòu)框架圖。

▲ 圖2:基于上下文增強(qiáng)和縮略-恢復(fù)策略的縮略詞transformer框架圖

2.1 上下文增強(qiáng)編碼器

首先,將實(shí)體的完整形式 x 及其相關(guān)文本 d 都輸入到這個模塊。使用與 BERT 相同的初始化操作得到初始 embedding,以及它們的位置 embedding 一起輸入 transformer encoder block,生成一些重要的特征表示。為了減少數(shù)據(jù)的噪音,最終只取實(shí)體對應(yīng)的隱狀態(tài)輸入到解碼器當(dāng)中,以便后續(xù)的解碼。

2.2 縮略-恢復(fù)解碼器

這是我們模型生成縮略詞序列的關(guān)鍵模塊。它是用 transformer decoder block 和縮寫及恢復(fù)策略對應(yīng)的兩個分類器分別構(gòu)成。整個解碼過程是實(shí)際上是一個迭代的過程。具體來說,在每一輪開始時,輸入上一輪過程輸出的由 n+2 個 token 組成的 token 序列。然后,每個 token 的初始 embedding 附加其位置 embedding,伴隨著解碼器的輸出 H, 然后輸入第一個 transformer decoder block。最后,我們將最后一個 block 輸出的隱藏狀態(tài)作為后續(xù)兩個分類器的輸入。

隨著所有標(biāo)記的隱藏狀態(tài),縮寫分類器或恢復(fù)分類器判斷序列中哪個 token 應(yīng)該縮寫或恢復(fù)。在第k輪解碼過程中,縮寫分類器首先判斷序列中的每個 token 是否應(yīng)該縮寫。類似地,恢復(fù)分類器判斷序列中每個特殊的縮略詞*是應(yīng)該保留還是恢復(fù)到相同位置的源 token。如下式所示,其中:

縮略分類器:

恢復(fù)分類器:

最后,縮略詞序列中的所有 * 都被刪除,并且因此我們得到了源實(shí)體的最終縮略詞。

實(shí)驗(yàn)結(jié)果

我們將 CETAR 與基線模型在三個中文縮寫數(shù)據(jù)集上進(jìn)行了比較,其中兩個屬于通用領(lǐng)域,一個屬于特定的景點(diǎn)領(lǐng)域。后者是基于阿里飛豬景點(diǎn) POI 實(shí)體及其別名構(gòu)建的中文縮略詞數(shù)據(jù)集。對于通用領(lǐng)域的數(shù)據(jù)集中的實(shí)體,我們選取了其百度百科描述性文本的第一句話作為相關(guān)文本;而對于飛豬中文縮略詞數(shù)據(jù)集中的景點(diǎn) POI 實(shí)體,我們則是以其最相關(guān)的評論文本及 query 文本作為相關(guān)文本。

至于評價指標(biāo),首先,我們使用 Hit 作為指標(biāo)來比較模型的性能。測試樣本被視為命中樣本如果它的預(yù)測縮寫和它 ground-truth 縮寫一模一樣。而 Hit score 是命中樣本占所有測試樣本的比例。此外,考慮到一些實(shí)體有多個縮寫,我們進(jìn)一步考慮了以下指標(biāo),這些指標(biāo)是基于對從測試集中隨機(jī)選擇的 500 個樣本的人工評估計(jì)算得出的,包括正確樣本、NA、NW 和 WOM 在所有人類評估樣本中的比例。

具體來說,NA 表示預(yù)測的縮略詞是正確的,但和 ground-truth 的縮略詞不同。NW 代表錯誤且語言結(jié)構(gòu)異常的預(yù)測縮略詞,而 WOM 代表錯誤但語言結(jié)構(gòu)正常的預(yù)測縮略詞。具體實(shí)例可見表 2。

▲ 表2: 縮略詞的四種不同形式實(shí)例

▲ 表3: 數(shù)據(jù)集一各模型表現(xiàn)

▲ 表4: 數(shù)據(jù)集二和數(shù)據(jù)集三各模型表現(xiàn)

從表 3 和表 4,我們得到以下結(jié)論:

1. 在命中率和準(zhǔn)確性方面,我們的 CETAR 在通用領(lǐng)域數(shù)據(jù)集( 和 )和特定領(lǐng)域數(shù)據(jù)集()上都優(yōu)于所有基線。

2. 所有模型的 NW 分?jǐn)?shù)幾乎都高于其 WOM 分?jǐn)?shù),說明不正確的分詞是導(dǎo)致錯誤預(yù)測的主要原因。因此,單詞邊界的信息對于準(zhǔn)確的縮略詞預(yù)測非常重要。

3. 我們還發(fā)現(xiàn),大多數(shù)模型在 上的準(zhǔn)確度得分都優(yōu)于 和 。這是因?yàn)槁糜?POI 的縮寫通常由完整形式的連續(xù)標(biāo)記組成,例如“杭州西湖風(fēng)景區(qū)-西湖”,而一般領(lǐng)域的實(shí)體縮略詞通常由不連續(xù)的標(biāo)記組成。前者更容易讓模型實(shí)現(xiàn)準(zhǔn)確的預(yù)測。

▲ 表5: CETAR 針對數(shù)據(jù)集二中輸入實(shí)體不同長度的文本(摘要)預(yù)測結(jié)果

3.1 消融實(shí)驗(yàn)

事實(shí)上,輸入過多的文本可能會產(chǎn)生過多的噪音,也會消耗更多的計(jì)算資源。為了尋求輸入文本的最佳長度,我們比較了 CETAR 在 D2 上輸入百度百科實(shí)體摘要的前 1~4 個句子時的性能。

表 5 表明,輸入摘要的第一句表現(xiàn)最好。通過對從數(shù)據(jù)集中隨機(jī)抽取的 300 個樣本的調(diào)查,我們發(fā)現(xiàn)大約 75.33% 的第一句話提到了源實(shí)體的類型。這也證明了實(shí)體類型是促使 CETAR 生成正確縮略詞序列的關(guān)鍵信息。

▲ 表6: CETAR 針對數(shù)據(jù)集三中輸入實(shí)體不同長度的文本(評論)預(yù)測結(jié)果

▲ 表7: CETAR 針對數(shù)據(jù)集三中輸入實(shí)體不同長度的文本(query)預(yù)測結(jié)果

同樣,作為數(shù)據(jù)集三(表 6 & 表 7),CETAR 在將語義最相關(guān)(第一個)的評論或查詢集作為相關(guān)文本時取得了最佳性能。通過深入調(diào)查,我們發(fā)現(xiàn)熱門評論(查詢)更有可能包含目標(biāo)實(shí)體的縮略詞,幫助 CETAR 實(shí)現(xiàn)更準(zhǔn)確的預(yù)測。

3.2 應(yīng)用

為了驗(yàn)證縮略詞在搜索系統(tǒng)中提高召回率和準(zhǔn)確捕捉用戶搜索意圖的有效性,我們將 CETAR 預(yù)測的 56,190 個 POI 實(shí)體的縮略詞部署到飛豬的搜索系統(tǒng)中。然后,我們進(jìn)行了持續(xù) 4 天的大規(guī)模 A/B 測試,發(fā)現(xiàn)處理桶與對照桶相比,獲得了 2.03% 的 CVR 提升。那為什么有意義呢?例如,基于精確關(guān)鍵字匹配的搜索系統(tǒng)不會為查詢“迪士尼樂園”返回酒店“上海迪士尼樂園酒店”,因?yàn)榫频甑拿Q與查詢不完全匹配。但是,如果預(yù)先將“迪士尼”識別為“迪士尼度假區(qū)”的縮略詞,則可以更輕松地將酒店與查詢相關(guān)聯(lián)。

總結(jié)

在本文中,我們提出了用于中文縮略詞預(yù)測的 CETAR,它利用了與源實(shí)體相關(guān)的信息上下文。CETAR 通過迭代解碼過程生成準(zhǔn)確的縮略詞序列,其中縮略分類器和恢復(fù)分類器交替工作。我們的實(shí)驗(yàn)證明了 CETAR 優(yōu)于 SOTA 方法的中文縮略詞預(yù)測。此外,我們在景點(diǎn)領(lǐng)域成功構(gòu)建了一個中文縮略詞數(shù)據(jù)集,并已部署在現(xiàn)實(shí)世界的飛豬搜索系統(tǒng)上。系統(tǒng)的在線A/B測試實(shí)現(xiàn)了CVR的顯著提升,驗(yàn)證了縮略詞在促進(jìn)業(yè)務(wù)方面的價值。

審核編輯:郭婷


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    490

    瀏覽量

    22494

原文標(biāo)題:CIKM2022 | 基于文本增強(qiáng)和縮略-恢復(fù)策略的縮略詞Transformer

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行時間序列預(yù)測

    使用BP(Backpropagation)神經(jīng)網(wǎng)絡(luò)進(jìn)行時間序列預(yù)測是一種常見且有效的方法。以下是一個基于BP神經(jīng)網(wǎng)絡(luò)進(jìn)行時間序列預(yù)測的詳細(xì)步驟和考慮因素: 一、數(shù)據(jù)準(zhǔn)備 收集數(shù)據(jù) :
    的頭像 發(fā)表于 02-12 16:44 ?663次閱讀

    基于移動自回歸的時序擴(kuò)散預(yù)測模型

    回歸取得了比傳統(tǒng)基于噪聲的擴(kuò)散模型更好的生成效果,并且獲得了人工智能頂級會議 NeurIPS 2024 的 best paper。 然而在時間序列預(yù)測領(lǐng)域,當(dāng)前主流的擴(kuò)散方法還是傳統(tǒng)的
    的頭像 發(fā)表于 01-03 14:05 ?661次閱讀
    基于移動自回歸的時序擴(kuò)散<b class='flag-5'>預(yù)測</b><b class='flag-5'>模型</b>

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人大模型

    引入GPT這樣的大模型后,情況發(fā)生了根本性的變化。只需提供適當(dāng)?shù)奶崾?b class='flag-5'>詞以及封裝好的機(jī)器人函數(shù)庫,大模型便能靈活地生成控制代碼,極大地簡化了開發(fā)過程,并提高了自動化水平。 此外,大
    發(fā)表于 12-29 23:04

    如何使用RNN進(jìn)行時間序列預(yù)測

    時間序列預(yù)測在金融、氣象、銷售預(yù)測等領(lǐng)域有著廣泛的應(yīng)用。傳統(tǒng)的時間序列分析方法,如ARIMA和指數(shù)平滑,雖然在某些情況下表現(xiàn)良好,但在處理非線性和復(fù)雜模式時可能不夠靈活。遞歸神經(jīng)網(wǎng)絡(luò)(
    的頭像 發(fā)表于 11-15 09:45 ?815次閱讀

    如何使用Python構(gòu)建LSTM神經(jīng)網(wǎng)絡(luò)模型

    numpy tensorflow 2. 準(zhǔn)備數(shù)據(jù) LSTM模型通常用于序列數(shù)據(jù),比如時間序列預(yù)測或文本
    的頭像 發(fā)表于 11-13 10:10 ?1413次閱讀

    【「時間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】時間序列的信息提取

    個重要環(huán)節(jié),目標(biāo)是從給定的時間序列數(shù)據(jù)中提取出有用的信息和特征,以支持后續(xù)的分析和預(yù)測任務(wù)。 特征工程(Feature Engineering)是將數(shù)據(jù)轉(zhuǎn)換為更好地表示潛在問題的特征,從而提高機(jī)器學(xué)習(xí)
    發(fā)表于 08-17 21:12

    【《時間序列與機(jī)器學(xué)習(xí)》閱讀體驗(yàn)】+ 了解時間序列

    學(xué)習(xí)方法對該序列數(shù)據(jù)進(jìn)行分析,可以得到結(jié)論或預(yù)測估計(jì),因此時間序列分析的用途是非常多的,比如: 可以反映社會經(jīng)濟(jì)現(xiàn)象的發(fā)展變化過程,描述現(xiàn)象的發(fā)展?fàn)顟B(tài)和結(jié)果。 可以研究社會經(jīng)濟(jì)現(xiàn)象的發(fā)
    發(fā)表于 08-11 17:55

    【「時間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】全書概覽與時間序列概述

    序列數(shù)據(jù)中提取有用的特征,例如時間序列的統(tǒng)計(jì)特征、特征和降維特征等,以及如何判斷時間序列的單調(diào)性。 ●第3章“時間序列預(yù)測”:介紹常用的時間
    發(fā)表于 08-07 23:03

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識學(xué)習(xí)

    習(xí)語言的表達(dá)方式和生成能力。通過預(yù)測文本中缺失的部分或下一個模型逐漸掌握語言的規(guī)律和特征。 常用的模型結(jié)構(gòu) Transformer架構(gòu)
    發(fā)表于 08-02 11:03

    matlab預(yù)測模型怎么用

    MATLAB預(yù)測模型是一種基于統(tǒng)計(jì)和數(shù)學(xué)方法的預(yù)測工具,廣泛應(yīng)用于各種領(lǐng)域,如金融、氣象、生物醫(yī)學(xué)等。本文將介紹MATLAB預(yù)測
    的頭像 發(fā)表于 07-11 14:33 ?999次閱讀

    MATLAB預(yù)測模型哪個好

    ,適用于預(yù)測連續(xù)型數(shù)據(jù)。它假設(shè)輸入變量(自變量)與輸出變量(因變量)之間存在線性關(guān)系。線性回歸模型的表達(dá)式為: y = β0 + β1x1 + β2x2 + ... + βnxn + ε 其中,y是
    的頭像 發(fā)表于 07-11 14:31 ?659次閱讀

    matlab預(yù)測模型有哪些

    環(huán)境,使其成為預(yù)測模型開發(fā)和實(shí)現(xiàn)的理想平臺。本文將詳細(xì)介紹MATLAB中常用的預(yù)測模型及其應(yīng)用。 線性回歸模型 線性回歸是一種簡單的
    的頭像 發(fā)表于 07-11 14:27 ?1257次閱讀

    深度學(xué)習(xí)中的時間序列分類方法

    時間序列分類(Time Series Classification, TSC)是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域的重要任務(wù)之一,廣泛應(yīng)用于人體活動識別、系統(tǒng)監(jiān)測、金融預(yù)測、醫(yī)療診斷等多個領(lǐng)域。隨著深度學(xué)習(xí)技術(shù)
    的頭像 發(fā)表于 07-09 15:54 ?1952次閱讀

    arimagarch模型怎么預(yù)測

    ARIMA-GARCH模型是一種時間序列預(yù)測方法,它結(jié)合了自回歸積分滑動平均(ARIMA)模型和廣義自回歸條件異方差(GARCH)模型。AR
    的頭像 發(fā)表于 07-09 10:22 ?898次閱讀

    名單公布!【書籍評測活動NO.35】如何用「時間序列與機(jī)器學(xué)習(xí)」解鎖未來?

    捕捉復(fù)雜非線性模式的場景中顯得力不從心。 將時間序列的分析與預(yù)測用于大規(guī)模的數(shù)據(jù)生產(chǎn)一直存在諸多困難。 在這種背景下,結(jié)合機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí)技術(shù)的時間序列分析方法,成了
    發(fā)表于 06-25 15:00
    主站蜘蛛池模板: 伊人网大香 | 国产乱淫a∨片免费视频 | 国产成人精品三级 | 日日夜夜天天操 | 午夜窝窝| 黄免费看 | 国产毛片农村妇女系列 | 俺来也俺去啦久久综合网 | 婷婷五月天.com | 日本三级三级三级免费看 | 婷婷亚洲综合五月天在线 | 天天草视频 | 美女视频黄又黄又免费高清 | 日本在线观看一区 | 香蕉蕉亚亚洲aav综合 | 丁香婷婷基地 | 久久久夜 | 99成人在线 | 午夜aa| 欧美婷婷六月丁香综合色 | 久久怡红院国产精品 | 午夜免费体验 | 国产精品一区二区三区四区五区 | 狠狠操狠狠摸 | 成年网站在线在免费播放 | 手机看片国产免费 | 日本肥妇 | 在线国产高清 | 特级深夜a级毛片免费观看 特级生活片 | 黄色大片视频在线观看 | 日本免费小视频 | 欧美成人精品一区二三区在线观看 | 亚1州区2区3区4区产品乱码 | 夜夜爽天天操 | 男生脱美女内裤内衣动态图 | 波多野结衣久久国产精品 | 日本不卡免费高清视频 | 日日草天天干 | 黄频免费 | 美女好紧好大好爽12p | 亚洲成人77777|