擴散模型和其在文本生成圖像任務(wù)上的應(yīng)用
擴散過程有一個顯著特性,我們可以對任意 進行采樣。為了證明該性質(zhì)需要使用參數(shù)重整化技巧:假設(shè)要從....
一份NLP算法方向的社招面經(jīng)
這里有一個提高通過率的小trick:可以和1個或者多個靠譜小伙伴一起,讓大家看對方的簡歷,假設(shè)自己是....
meta reweighting 策略來增強偽樣本的效果
本文的 basic 模型使用 BERT+BiLSTM+CRF 進行 NER 任務(wù)。首先給定輸入序列 ....
ERNIE-Search模型結(jié)構(gòu)
這個損失的內(nèi)容非常多,我把他分為兩個部分,一個是獨立訓(xùn)練的部分(不帶箭頭的),另一個是蒸餾部分(帶箭....
利用對比前綴控制文本生成以及長文本生成的動態(tài)內(nèi)容規(guī)劃
一些最新的研究表明,預(yù)訓(xùn)練語言模型(PLM)可以通過自我監(jiān)督的預(yù)訓(xùn)練從大規(guī)模語料庫中自動獲取知識,然....
利用算法開發(fā)了一種新的自然語言生成解碼方式
這樣的前向啟發(fā)函數(shù)有兩個好處,如果是滿足多Token約束的一個Token,前向啟發(fā)函數(shù)包含了全部約束....
詞義消歧與實體消歧
在詞義消歧中,同一詞語的不同義項會作為候選詞。我們需要在所有候選詞中找到與文本中目標(biāo)詞語最接近的那個....
基于序列標(biāo)注的實體識別所存在的問題
實體識別通常被當(dāng)作序列標(biāo)注任務(wù)來做,序列標(biāo)注模型需要對實體邊界和實體類別進行預(yù)測,從而識別和提取出相....
大模型技術(shù)發(fā)展背景
我們今天看到了一個明顯的趨勢就是 AI 正從感知智能快速向認知智能邁進。AI 正從“能聽、會說、會看....
怎么構(gòu)建命名實體識別(NER)任務(wù)的標(biāo)注數(shù)據(jù)
用自己平臺的商品標(biāo)題去請求一些開放 NER 的 api,比如阿里云、騰訊云、百度 ai 等,有些平臺....
中文文本糾錯任務(wù)
公文糾錯:針對公文寫作場景,提供字詞、標(biāo)點、專名、數(shù)值內(nèi)容糾錯,包含領(lǐng)導(dǎo)人姓名、領(lǐng)導(dǎo)人職位、數(shù)值一致....
實體關(guān)系抽取模型CasRel
許多實驗證明聯(lián)合學(xué)習(xí)方法由于考慮了兩個子任務(wù)之間的信息交互,大大提升了實體關(guān)系抽取的效果,所以目前針....
跨語言命名實體識別:無監(jiān)督多任務(wù)多教師蒸餾模型
另外一個任務(wù)輸入的為序列標(biāo)注的句對數(shù)據(jù),分別采用兩個獨立的Encoder編碼器進行編碼,得到的對應(yīng)的....
Meta開源NLLB翻譯模型,支持200種語言互譯
除了AI業(yè)內(nèi)關(guān)心他們?nèi)绾沃С终Z料稀缺的冷門語言,以及如何在BLEU基準(zhǔn)測試上提高7個點以外。也有來自....
JMEE利用句法樹以及GCN來建模多事件之間的關(guān)聯(lián)
今天要跟大家分享的是發(fā)表在EMNLP的一篇事件抽取的工作JMEE。JMEE針對的是多事件觸發(fā)詞及角色....

融合Image-Text和Image-Label兩種數(shù)據(jù)的多模態(tài)訓(xùn)練新方式
目前CV領(lǐng)域中包括兩種典型的訓(xùn)練模式,第一種是傳統(tǒng)的圖像分類訓(xùn)練,以離散的label為目標(biāo),人工標(biāo)注....
馬爾可夫與語言模型
有限狀態(tài)語法或正則語法,是指能夠生成有限狀態(tài)機可以接受的句子的語法。而能夠生成非確定性下推自動機(n....
如何實現(xiàn)更高效的VLN算法
視覺-語言導(dǎo)航任務(wù)(Vision-Language Navigation, VLN)是指在陌生環(huán)境中....
如何對typo 進行檢測和糾正
自然語言文本中經(jīng)常會出現(xiàn)一些拼寫錯誤(typo),在中文文本里即所謂的錯別字,中文拼寫糾錯(Chin....
在Token中加入你感興趣的詞的邊界標(biāo)記
首先分詞,在詞中間插入特殊標(biāo)記,這些標(biāo)記也會被當(dāng)做普通的字符處理。有位置,也會被 MASK,這樣編碼....
基于Entity-Linking及基于Retreval的方法
NLP預(yù)訓(xùn)練模型需要非常大的參數(shù)量以及非常多的語料信息,這些都是希望能盡可能多的記住文本中的知識,以....
基于GAN-inversion的圖像重構(gòu)過程
筆者最近在集中時間學(xué)習(xí)對抗生成網(wǎng)絡(luò)(GAN),特別是深度生成先驗進行多用途圖像修復(fù)與處理,需要對圖像....
生成式摘要的經(jīng)典模型
以往的標(biāo)題模型產(chǎn)生的都是平實性標(biāo)題,即簡單語言描述的事實性標(biāo)題。但是,實際上我們可能更需要有記憶點的....
基于對抗自注意力機制的預(yù)訓(xùn)練語言模型
表示輸入的特征,在傳統(tǒng)的對抗訓(xùn)練中, 通常是 token 序列或者是 token 的 embeddi....
數(shù)據(jù)類別不均衡問題的分類及解決方式
數(shù)據(jù)類別不均衡問題應(yīng)該是一個極常見又頭疼的的問題了。最近在工作中也是碰到這個問題,花了些時間梳理....
基于RoBERTa的語義理解模型的構(gòu)建
美團技術(shù)團隊 近日,美團搜索與NLP部NLP中心語義理解團隊的小樣本學(xué)習(xí)模型FSL++在中文小樣本語....
表示學(xué)習(xí)中7大損失函數(shù)的發(fā)展歷程及設(shè)計思路
表示學(xué)習(xí)的目的是將原始數(shù)據(jù)轉(zhuǎn)換成更好的表達,以提升下游任務(wù)的效果。在表示學(xué)習(xí)中,損失函數(shù)的設(shè)計一直是....
邏輯推理MRC的兩個數(shù)據(jù)集和對應(yīng)方法
AdaLoGN的整體結(jié)構(gòu)如圖6所示,可以看到自適應(yīng)地擴展TLG、消息傳遞過程通過迭代多輪來使得符號推....
如何在Prompt Learning下引入外部知識達到好文本分類效果
手工定義或自動搜索得到的verbalizer有主觀性強覆蓋面小等缺點,我們使用了知識庫來進行標(biāo)簽詞的....
如何更高效地使用預(yù)訓(xùn)練語言模型
本文對任務(wù)低維本征子空間的探索是基于 prompt tuning, 而不是fine-tuning。原....