有声小说在线收听网,梦入神机,穿越小说完本

在很多問題中，獲取標(biāo)注準(zhǔn)確的大量數(shù)據(jù)需要很高的成本，這也往往限制了深度學(xué)習(xí)的應(yīng)用。主動學(xué)習(xí)通過對未標(biāo)注的數(shù)據(jù)進(jìn)行篩選，可以利用少量的標(biāo)注數(shù)據(jù)取得較高的學(xué)習(xí)準(zhǔn)確度。本文將提供代碼實現(xiàn)，展示實驗效果及一些思考。

1. 原理

通過命名實體識別模型對未標(biāo)注數(shù)據(jù)進(jìn)行預(yù)測，根據(jù)不同的評價標(biāo)準(zhǔn)計算模型對該數(shù)據(jù)預(yù)測結(jié)果的信心（概率）。對于信心較低的樣本，往往包含模型更多未知的信息，挑選出這些信心較低的樣本進(jìn)行優(yōu)先標(biāo)注。更詳細(xì)的原理可以閱讀參考文章:基于深度主動學(xué)習(xí)的命名實體識別[1]（這篇小喵很早之前已經(jīng)拜讀過了，非常推薦大家閱讀，相信大家一定會有所收獲）。

2. 模型設(shè)計

模型的上游采用Bert，采用最普通的序列標(biāo)注的方式，即在 token-level 進(jìn)行多標(biāo)簽分類。

另一方面，為了解決實體重疊的問題，使用 Sigmoid 代替 SoftMax。

此外，我們沒有使用 crf 層，在原論文中也沒有使用 crf 層。這樣做的原因主要是因為主動學(xué)習(xí)是為了挑選出最有標(biāo)注價值的數(shù)據(jù)，而不是為了追求模型的準(zhǔn)確率。crf 層會增加模型預(yù)測的時間，所以沒有選擇使用。

3. 如何計算模型對預(yù)測結(jié)果的信心

這里介紹論文中提及的兩種計算方式 Least Confidence（簡稱 LC）和 Maximum Normalized Log-Probality（簡稱 MNLP）：

LC：是計算預(yù)測中最大概率序列的對應(yīng)概率值。

MNLP：基于 LC 并且考慮到生成中的序列長度對于不確定性的影響，我們做一個 normalization（即除以每個句子的長度），概率則是用每一個點概率輸出的 log 值求和來代替。

在論文中作者表示 MNLP 是非常理想的方法。在實際實驗中 MNLP 比 LC 更為”公平“。原因是：句子越長，對于 LC 這種評價標(biāo)準(zhǔn)來說，分?jǐn)?shù)會更高；而 MNLP 不會。

但是在研究 MNLP 給出評分較高和較低的case后，會發(fā)現(xiàn) MNLP 對于句子中預(yù)測出的實體數(shù)量很敏感，如果預(yù)測出的實體很少，分?jǐn)?shù)往往很高，相對的，實體數(shù)量很多，分?jǐn)?shù)會很低。

所以本文的實現(xiàn)中提供了一種補(bǔ)償方案，在 MNLP 的基礎(chǔ)上根據(jù)實體數(shù)量進(jìn)行補(bǔ)償，讓其對實體數(shù)量不那么敏感。具體的做法是除以一個補(bǔ)償參數(shù) ，這個參數(shù)主要由句子中預(yù)測出的實體數(shù)決定。

代碼

lc_confidence=0
MNLP_confidence=0

forlableinlabels:
lc_con=1
mnlp_con=1
forlinlable:
ifl<=?0.5:
????????????????l?=?1?-?l
????????????lc_con?*=?l
????????????mnlp_con?+=?math.log(l)
????????lc_confidence?+=?lc_con???
????????MNLP_confidence?+=?mnlp_con

????MNLP_confidence?=?MNLP_confidence/(len(labels))
????entry_MNLP_confidence?=?1?-?(1?-?MNLP_confidence)/((len(res)?+?2)**0.5)?*?(2)

其中 labels 是模型對句子序列預(yù)測的結(jié)果可以參考下圖示例。其中，單元格中的數(shù)字代表：對應(yīng)標(biāo)簽類別對當(dāng)前位置是否屬于自己類別的預(yù)測概率。

舉個例子，0.9 代表模型預(yù)測 ‘北’ 字是 ‘B-地名’ 標(biāo)簽的概率為0.9。對于B-地名標(biāo)簽來說，就有

4. 結(jié)果與思考

結(jié)果示例

"'公告編號：2021-067中南紅文化集團(tuán)股份有限公司關(guān)于公司職工代表監(jiān)事辭職暨補(bǔ)選職工代表監(jiān)事的公告本公司及監(jiān)事會全體成員保證信息披露內(nèi)容真實、準(zhǔn)確和完整，沒有虛假記載、誤導(dǎo)性陳述或者重大遺漏。中南紅文化集團(tuán)股份有限公司（以下簡稱“公司”）監(jiān)事會于2021年6月11日收到公司職工代表監(jiān)事王哲女士提交的書面辭職報告。王哲女士因個人原因申請辭去公司第五屆監(jiān)事會職工代表監(jiān)事職務(wù)。王哲女士辭職后，不再擔(dān)任公司任何職務(wù)。截至本公告發(fā)布之日，王哲女士未持有公司股份。":{
"res":[
[
"中南紅文化集團(tuán)股份有限公司",
"職位變動_辭職_公司"
],
[
"職工代表監(jiān)事",
"職位變動_辭職_職位"
],
[
"王哲",
"職位變動_辭職_人物"
]
],
"LC":217.5803241119802,
"MNLP_confidence":0.9695068267227575,
"entry_MNLP_confidence":0.9863630383404811
},
"3月31日，金剛玻璃再次發(fā)布公告，董事會于3月29日收到汕頭市公安局送達(dá)的《拘留通知書》，董事莊毓新因涉嫌違規(guī)披露、不披露重要信息罪被刑事拘留。圖片來源：深交所面對董秘辭職、董事被刑拘，金剛玻璃4月7日發(fā)布公告，公司董事會將提前換屆選舉。此前，金剛玻璃還曾因信披違規(guī)等被證監(jiān)會處罰。2020年4月，廣東證監(jiān)局對金剛玻璃下發(fā)《行政處罰決定書》和《市場禁入決定書》。經(jīng)查，2015年-2018年間，金剛玻璃存在虛增營收、利潤、貨幣資金以及未按規(guī)定披露關(guān)聯(lián)交易等違法行為。":{
"res":[
[
"金剛玻璃",
"職位變動_辭職_公司"
]
],
"LC":219.0427916272391,
"MNLP_confidence":0.9781149683847055,
"entry_MNLP_confidence":0.9873646711056863
},

思考

通過主動學(xué)習(xí)的結(jié)果，我們可以得到信心最少的樣本進(jìn)行標(biāo)注。同時信心最大的樣本也需要我們關(guān)注，如果這些樣本中存在明顯的錯誤，是否我們可以認(rèn)為模型學(xué)到了一些錯誤信息，并且特別的自信呢。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
7246

瀏覽量
91187
模型

模型

+關(guān)注

關(guān)注
1

文章
3499

瀏覽量
50076
代碼

代碼

+關(guān)注

關(guān)注
30

文章
4891

瀏覽量
70309
nlp

nlp

+關(guān)注

關(guān)注
1

文章
490

瀏覽量
22516

原文標(biāo)題：寫在前面

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

如何計算模型對預(yù)測結(jié)果的信心

評論