編者按:今天,卡內(nèi)基梅隆大學(xué)助理教授Zachary C. Lipton推薦了自己的一個(gè)有趣研究:讓模型學(xué)會(huì)閱讀理解究竟需要多少文本。在之前的ICML 2018研討會(huì)上,他和斯坦福大學(xué)研究生Jacob Steinhardt曾撰文痛批學(xué)界“歪風(fēng)”,在學(xué)界引起巨大反響。其中提到的一個(gè)弊端就是有些學(xué)者會(huì)對(duì)“進(jìn)步”錯(cuò)誤歸因,把調(diào)參獲得的性能改善強(qiáng)加到架構(gòu)調(diào)整上。結(jié)合這篇論文,也許他的研究能讓我們獲得一些見(jiàn)解。
摘要
近期,學(xué)界發(fā)表了不少有關(guān)閱讀理解的論文,它們使用的樣本都是(問(wèn)題、段落、答案)這樣的三元組。對(duì)此,一種常規(guī)的想法是,如果模型的目標(biāo)是預(yù)測(cè)相應(yīng)答案,它們就必須結(jié)合來(lái)自問(wèn)題和段落的信息。這是個(gè)很有趣的點(diǎn),但考慮到現(xiàn)在有數(shù)百篇已發(fā)表的論文正在爭(zhēng)奪排行榜第一的寶座,圍繞這些流行基線的基礎(chǔ)問(wèn)題還是遲遲沒(méi)能得到解決。
在本文中,我們?yōu)閎AbI、SQuAD、CBT、CNN和Whodid-What數(shù)據(jù)集構(gòu)建了合理的基線,發(fā)現(xiàn)如果樣本中只包含純問(wèn)題或純段落,模型的表現(xiàn)通常會(huì)很好。用純段落樣本進(jìn)行訓(xùn)練后,模型在14個(gè)bAbI問(wèn)題上取得了高于50%的準(zhǔn)確率(一共20個(gè)),其中部分結(jié)果甚至可以媲美正常模型。
另外,我們也發(fā)現(xiàn)了一個(gè)奇怪的點(diǎn):在CBT任務(wù)中,研究人員通常會(huì)用一個(gè)問(wèn)題和一個(gè)包含前20個(gè)句子的段落預(yù)測(cè)第21個(gè)句子中的缺失詞,但實(shí)驗(yàn)證實(shí),模型可能只需第21句話就能完成預(yù)測(cè)。相比之下,CNN和SQuAD這兩個(gè)數(shù)據(jù)集似乎構(gòu)造得很好。
數(shù)據(jù)集&基線
實(shí)驗(yàn)結(jié)果
bAbI任務(wù)
下表是基線KV-MemNet在bAbI數(shù)據(jù)集上的具體表現(xiàn),第一行使用的是常規(guī)樣本,包含問(wèn)題和段落;第二行只使用問(wèn)題;第三行只使用段落??梢园l(fā)現(xiàn),在第2,7,13,20個(gè)問(wèn)題中,用段落訓(xùn)練的模型性能驚人,準(zhǔn)確率在80%以上。在第3,13,16和20個(gè)問(wèn)題中,它的準(zhǔn)確率甚至超過(guò)了使用常規(guī)樣本的模型。而在第18個(gè)問(wèn)題中,用問(wèn)題訓(xùn)練的模型的準(zhǔn)確率也達(dá)到了91%,和正常的93%非常接近。
這個(gè)發(fā)現(xiàn)給我們的啟示是,bAbI的某些問(wèn)題可能并沒(méi)有我們想象中那么復(fù)雜。
CBT任務(wù)
CBT任務(wù)的“答案”根據(jù)詞性可分為命名實(shí)體(NE)、公共名詞(CN)、動(dòng)詞(V)、介詞(P)四類,由于后兩種根據(jù)上下文就能預(yù)測(cè),通常我們?cè)陂喿x理解問(wèn)題里會(huì)更重視前兩種詞性。
同樣是基線KV-MemNet,如下表所示,這次使用的三類樣本成了三列:如果是預(yù)測(cè)NE和CN,使用完整樣本訓(xùn)練的模型準(zhǔn)確率更高,但用了問(wèn)題的模型和它也很接近;如果是預(yù)測(cè)V和P,只用問(wèn)題訓(xùn)練效果更佳。
那么如果把“段落”從前20個(gè)句子改成第21句呢?下表是只用“段落”的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn),用最后一句效果更好,也就是說(shuō),它和正常模型的性能更接近。
CNN任務(wù)
在這里,Gated Attention Reader在CNN任務(wù)上的準(zhǔn)確率就差距較大了。這種下降可能是因?yàn)閷?shí)體匿名化導(dǎo)致模型無(wú)法構(gòu)建特定于實(shí)體的信息。
SQuAD任務(wù)
這個(gè)結(jié)果表明,SQuAD這個(gè)數(shù)據(jù)集針對(duì)閱讀理解任務(wù)做了精心設(shè)計(jì),它最具挑戰(zhàn)性。
討論
從實(shí)驗(yàn)數(shù)據(jù)可知,雖然同屬閱讀理解任務(wù),但這些數(shù)據(jù)集存在不同的缺陷,也有各種漏洞可以鉆。下面是我們?yōu)樵u(píng)估新的基線和算法設(shè)想的一些指導(dǎo)原則。這不是在指責(zé)以前的數(shù)據(jù)集制作者,相反地,這些紕漏能為未來(lái)的研究提供不小的價(jià)值。
提供嚴(yán)格的RC基線:已發(fā)布的RC數(shù)據(jù)集應(yīng)包含表明任務(wù)難度的合理基線,尤其是它們所需的“問(wèn)題”“段落”信息量,如果沒(méi)有這些標(biāo)準(zhǔn),我們就無(wú)法知道模型進(jìn)步究竟取決于什么。
測(cè)試完整信息的必要性:在需要“問(wèn)題”信息和“段落”信息的問(wèn)題中,有時(shí)候真正起作用的只是部分信息。就像CBT任務(wù),雖然只有二十幾句話,但是我們用最后一句話就能訓(xùn)練媲美正常性能的模型。每個(gè)模型究竟需要多少信息量,這是研究人員應(yīng)該標(biāo)明的。
使用完型填空式的RC數(shù)據(jù)集時(shí),保持謹(jǐn)慎:這類數(shù)據(jù)集通常是由程序批量制造的,很少有人參與。如果用它們訓(xùn)練模型,我們會(huì)找不到目前技術(shù)的局限,也排查不了。
此外,各類會(huì)議在推薦收錄論文的數(shù)據(jù)集時(shí),也應(yīng)更注重嚴(yán)謹(jǐn)性,而不是只看創(chuàng)新性。
-
模型
+關(guān)注
關(guān)注
1文章
3342瀏覽量
49270 -
基線
+關(guān)注
關(guān)注
0文章
12瀏覽量
7991
原文標(biāo)題:基線調(diào)研:讓模型學(xué)會(huì)閱讀理解需要多少信息?
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 俯瞰全書(shū)
【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇
【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)
【「大模型啟示錄」閱讀體驗(yàn)】對(duì)本書(shū)的初印象
基于LabVIEW的文本(txt)閱讀器
如何閱讀文本文件?
基于文本摘要和引用關(guān)系的可視輔助文獻(xiàn)閱讀系統(tǒng)
機(jī)器閱讀理解的含義以及如何工作
![機(jī)器<b class='flag-5'>閱讀</b><b class='flag-5'>理解</b>的含義以及如何工作](https://file1.elecfans.com//web2/M00/A7/2A/wKgZomUMQsGAc9hoAAASmgQM1Cw594.png)
剝開(kāi)機(jī)器閱讀理解的神秘外衣
![剝開(kāi)機(jī)器<b class='flag-5'>閱讀</b><b class='flag-5'>理解</b>的神秘外衣](https://file1.elecfans.com//web2/M00/A7/3A/wKgZomUMQyeAATMFAAAx9QpeVnw630.png)
如果把中學(xué)生的英語(yǔ)閱讀理解選擇題讓AI來(lái)做,會(huì)做出什么水平?
一種基于多任務(wù)聯(lián)合訓(xùn)練的閱讀理解模型
![一種基于多任務(wù)聯(lián)合訓(xùn)練的<b class='flag-5'>閱讀</b><b class='flag-5'>理解</b><b class='flag-5'>模型</b>](https://file.elecfans.com/web1/M00/E5/AD/pIYBAGBQKYKAVG9eAALWIdW5Vho871.png)
基于LSTM的表示學(xué)習(xí)-文本分類模型
深度揭秘工字電感究竟需要測(cè)量哪些參數(shù)的好壞
![深度揭秘工字電感<b class='flag-5'>究竟需要</b>測(cè)量哪些參數(shù)的好壞](https://file.elecfans.com/web2/M00/34/14/poYBAGIiAoeAfBsMAAPbCmjEcxM545.png)
評(píng)論