在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

流行基線基礎(chǔ)問(wèn)題遲遲沒(méi)能解決,讓模型學(xué)會(huì)閱讀理解究竟需要多少文本

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:工程師曾玲 ? 2018-08-18 11:43 ? 次閱讀

編者按:今天,卡內(nèi)基梅隆大學(xué)助理教授Zachary C. Lipton推薦了自己的一個(gè)有趣研究:讓模型學(xué)會(huì)閱讀理解究竟需要多少文本。在之前的ICML 2018研討會(huì)上,他和斯坦福大學(xué)研究生Jacob Steinhardt曾撰文痛批學(xué)界“歪風(fēng)”,在學(xué)界引起巨大反響。其中提到的一個(gè)弊端就是有些學(xué)者會(huì)對(duì)“進(jìn)步”錯(cuò)誤歸因,把調(diào)參獲得的性能改善強(qiáng)加到架構(gòu)調(diào)整上。結(jié)合這篇論文,也許他的研究能讓我們獲得一些見(jiàn)解。

摘要

近期,學(xué)界發(fā)表了不少有關(guān)閱讀理解的論文,它們使用的樣本都是(問(wèn)題、段落、答案)這樣的三元組。對(duì)此,一種常規(guī)的想法是,如果模型的目標(biāo)是預(yù)測(cè)相應(yīng)答案,它們就必須結(jié)合來(lái)自問(wèn)題和段落的信息。這是個(gè)很有趣的點(diǎn),但考慮到現(xiàn)在有數(shù)百篇已發(fā)表的論文正在爭(zhēng)奪排行榜第一的寶座,圍繞這些流行基線的基礎(chǔ)問(wèn)題還是遲遲沒(méi)能得到解決。

在本文中,我們?yōu)閎AbI、SQuAD、CBT、CNN和Whodid-What數(shù)據(jù)集構(gòu)建了合理的基線,發(fā)現(xiàn)如果樣本中只包含純問(wèn)題或純段落,模型的表現(xiàn)通常會(huì)很好。用純段落樣本進(jìn)行訓(xùn)練后,模型在14個(gè)bAbI問(wèn)題上取得了高于50%的準(zhǔn)確率(一共20個(gè)),其中部分結(jié)果甚至可以媲美正常模型。

另外,我們也發(fā)現(xiàn)了一個(gè)奇怪的點(diǎn):在CBT任務(wù)中,研究人員通常會(huì)用一個(gè)問(wèn)題和一個(gè)包含前20個(gè)句子的段落預(yù)測(cè)第21個(gè)句子中的缺失詞,但實(shí)驗(yàn)證實(shí),模型可能只需第21句話就能完成預(yù)測(cè)。相比之下,CNN和SQuAD這兩個(gè)數(shù)據(jù)集似乎構(gòu)造得很好。

數(shù)據(jù)集&基線

流行基線基礎(chǔ)問(wèn)題遲遲沒(méi)能解決,讓模型學(xué)會(huì)閱讀理解究竟需要多少文本

實(shí)驗(yàn)結(jié)果

bAbI任務(wù)

下表是基線KV-MemNet在bAbI數(shù)據(jù)集上的具體表現(xiàn),第一行使用的是常規(guī)樣本,包含問(wèn)題和段落;第二行只使用問(wèn)題;第三行只使用段落??梢园l(fā)現(xiàn),在第2,7,13,20個(gè)問(wèn)題中,用段落訓(xùn)練的模型性能驚人,準(zhǔn)確率在80%以上。在第3,13,16和20個(gè)問(wèn)題中,它的準(zhǔn)確率甚至超過(guò)了使用常規(guī)樣本的模型。而在第18個(gè)問(wèn)題中,用問(wèn)題訓(xùn)練的模型的準(zhǔn)確率也達(dá)到了91%,和正常的93%非常接近。

這個(gè)發(fā)現(xiàn)給我們的啟示是,bAbI的某些問(wèn)題可能并沒(méi)有我們想象中那么復(fù)雜。

流行基線基礎(chǔ)問(wèn)題遲遲沒(méi)能解決,讓模型學(xué)會(huì)閱讀理解究竟需要多少文本

CBT任務(wù)

CBT任務(wù)的“答案”根據(jù)詞性可分為命名實(shí)體(NE)、公共名詞(CN)、動(dòng)詞(V)、介詞(P)四類,由于后兩種根據(jù)上下文就能預(yù)測(cè),通常我們?cè)陂喿x理解問(wèn)題里會(huì)更重視前兩種詞性。

同樣是基線KV-MemNet,如下表所示,這次使用的三類樣本成了三列:如果是預(yù)測(cè)NE和CN,使用完整樣本訓(xùn)練的模型準(zhǔn)確率更高,但用了問(wèn)題的模型和它也很接近;如果是預(yù)測(cè)V和P,只用問(wèn)題訓(xùn)練效果更佳。

流行基線基礎(chǔ)問(wèn)題遲遲沒(méi)能解決,讓模型學(xué)會(huì)閱讀理解究竟需要多少文本

那么如果把“段落”從前20個(gè)句子改成第21句呢?下表是只用“段落”的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn),用最后一句效果更好,也就是說(shuō),它和正常模型的性能更接近。

流行基線基礎(chǔ)問(wèn)題遲遲沒(méi)能解決,讓模型學(xué)會(huì)閱讀理解究竟需要多少文本

CNN任務(wù)

在這里,Gated Attention Reader在CNN任務(wù)上的準(zhǔn)確率就差距較大了。這種下降可能是因?yàn)閷?shí)體匿名化導(dǎo)致模型無(wú)法構(gòu)建特定于實(shí)體的信息。

流行基線基礎(chǔ)問(wèn)題遲遲沒(méi)能解決,讓模型學(xué)會(huì)閱讀理解究竟需要多少文本

SQuAD任務(wù)

這個(gè)結(jié)果表明,SQuAD這個(gè)數(shù)據(jù)集針對(duì)閱讀理解任務(wù)做了精心設(shè)計(jì),它最具挑戰(zhàn)性。

流行基線基礎(chǔ)問(wèn)題遲遲沒(méi)能解決,讓模型學(xué)會(huì)閱讀理解究竟需要多少文本

討論

從實(shí)驗(yàn)數(shù)據(jù)可知,雖然同屬閱讀理解任務(wù),但這些數(shù)據(jù)集存在不同的缺陷,也有各種漏洞可以鉆。下面是我們?yōu)樵u(píng)估新的基線和算法設(shè)想的一些指導(dǎo)原則。這不是在指責(zé)以前的數(shù)據(jù)集制作者,相反地,這些紕漏能為未來(lái)的研究提供不小的價(jià)值。

提供嚴(yán)格的RC基線:已發(fā)布的RC數(shù)據(jù)集應(yīng)包含表明任務(wù)難度的合理基線,尤其是它們所需的“問(wèn)題”“段落”信息量,如果沒(méi)有這些標(biāo)準(zhǔn),我們就無(wú)法知道模型進(jìn)步究竟取決于什么。

測(cè)試完整信息的必要性:在需要“問(wèn)題”信息和“段落”信息的問(wèn)題中,有時(shí)候真正起作用的只是部分信息。就像CBT任務(wù),雖然只有二十幾句話,但是我們用最后一句話就能訓(xùn)練媲美正常性能的模型。每個(gè)模型究竟需要多少信息量,這是研究人員應(yīng)該標(biāo)明的。

使用完型填空式的RC數(shù)據(jù)集時(shí),保持謹(jǐn)慎:這類數(shù)據(jù)集通常是由程序批量制造的,很少有人參與。如果用它們訓(xùn)練模型,我們會(huì)找不到目前技術(shù)的局限,也排查不了。

此外,各類會(huì)議在推薦收錄論文的數(shù)據(jù)集時(shí),也應(yīng)更注重嚴(yán)謹(jǐn)性,而不是只看創(chuàng)新性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3342

    瀏覽量

    49270
  • 基線
    +關(guān)注

    關(guān)注

    0

    文章

    12

    瀏覽量

    7991

原文標(biāo)題:基線調(diào)研:讓模型學(xué)會(huì)閱讀理解需要多少信息?

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    STemwin究竟需要多大的內(nèi)存?

    大家有沒(méi)有對(duì)STemwin特別了解的,STemwin究竟需要多大的內(nèi)存?就拿例程
    發(fā)表于 05-13 06:37

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 俯瞰全書(shū)

    上周收到《大語(yǔ)言模型應(yīng)用指南》一書(shū),非常高興,但工作項(xiàng)目繁忙,今天才品鑒體驗(yàn),感謝作者編寫了一部?jī)?nèi)容豐富、理論應(yīng)用相結(jié)合、印刷精美的著作,也感謝電子發(fā)燒友論壇提供了一個(gè)我了解大語(yǔ)言模型和機(jī)器學(xué)習(xí)
    發(fā)表于 07-21 13:35

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    今天開(kāi)始學(xué)習(xí)《大語(yǔ)言模型應(yīng)用指南》第一篇——基礎(chǔ)篇,對(duì)于人工智能相關(guān)專業(yè)技術(shù)人員應(yīng)該可以輕松加愉快的完成此篇閱讀,但對(duì)于我還是有許多的知識(shí)點(diǎn)、專業(yè)術(shù)語(yǔ)比較陌生,需要網(wǎng)上搜索學(xué)習(xí)更多的資料才能
    發(fā)表于 07-25 14:33

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    信息有助于模型更深入地理解文本的含義和意圖。 3. 推理與判斷 在問(wèn)答任務(wù)中,大語(yǔ)言模型不僅需要理解
    發(fā)表于 08-02 11:03

    【「大模型啟示錄」閱讀體驗(yàn)】對(duì)本書(shū)的初印象

    解決中。 幸運(yùn)的是,我看到了論壇上提供的《大模型啟示錄》評(píng)測(cè)機(jī)會(huì),便毫不猶豫地申請(qǐng)了,并且有幸被選中。 拿到這本書(shū)時(shí),做工和質(zhì)量超出了我的預(yù)料,這我對(duì)書(shū)中的內(nèi)容充滿了期待。 按照我的閱讀習(xí)慣,我
    發(fā)表于 12-16 14:05

    基于LabVIEW的文本(txt)閱讀

    本帖最后由 zhihuizhou 于 2011-11-25 14:57 編輯 基于LabVIEW的文本(txt)閱讀器,雖然用處不是很大 ,但是還是可以作為labview練習(xí)提高自己對(duì)labview的認(rèn)識(shí)和理解。。。。基于
    發(fā)表于 11-25 14:38

    如何閱讀文本文件?

    嗨團(tuán)隊(duì),謝謝你總是支持我,但我對(duì)閱讀文本文件有一些問(wèn)題?附件是我需要閱讀文本文件。 BR;希博伊 以上來(lái)自于谷歌翻譯 以下為原文Hi T
    發(fā)表于 01-29 06:39

    基于文本摘要和引用關(guān)系的可視輔助文獻(xiàn)閱讀系統(tǒng)

    近年來(lái),科技論文發(fā)表數(shù)量與日俱增,科研人員需要閱讀文獻(xiàn)的數(shù)量也隨之迅速增長(zhǎng).如何快速而有效地閱讀一篇科技論文,逐漸成為一個(gè)重要的研究課題.另一方面,在閱讀科技論文時(shí),
    發(fā)表于 01-14 15:19 ?0次下載

    機(jī)器閱讀理解的含義以及如何工作

    機(jī)器閱讀理解,雖然看起來(lái)只是AI上陣來(lái)一場(chǎng)考試。但是卻是自然語(yǔ)言處理技術(shù)中,繼語(yǔ)音判斷、語(yǔ)義理解之后最大的挑戰(zhàn):智能體
    的頭像 發(fā)表于 01-16 13:47 ?6889次閱讀
    機(jī)器<b class='flag-5'>閱讀</b><b class='flag-5'>理解</b>的含義以及如何工作

    剝開(kāi)機(jī)器閱讀理解的神秘外衣

    所謂的機(jī)器閱讀理解,基本概念跟咱們上學(xué)時(shí)做的閱讀理解題很相似,同樣都是給出一段材料和問(wèn)題,“考生”給出正確答案。所不同的,僅僅是機(jī)器
    發(fā)表于 03-19 18:47 ?771次閱讀
    剝開(kāi)機(jī)器<b class='flag-5'>閱讀</b><b class='flag-5'>理解</b>的神秘外衣

    如果把中學(xué)生的英語(yǔ)閱讀理解選擇題AI來(lái)做,會(huì)做出什么水平?

    與僅就問(wèn)題感知或選擇性文章表示進(jìn)行計(jì)算的現(xiàn)有方法不同,DCMN能夠計(jì)算文章感知問(wèn)題表示和文章感知答案表示。為了證明DCMN模型的有效性,我們?cè)诖笮?b class='flag-5'>閱讀理解數(shù)據(jù)集(即RACE)上評(píng)估了模型
    的頭像 發(fā)表于 04-19 10:49 ?3513次閱讀

    一種基于多任務(wù)聯(lián)合訓(xùn)練的閱讀理解模型

    機(jī)器閱讀理解是一項(xiàng)針對(duì)給定文本和特定問(wèn)題自動(dòng)生成或抽取相應(yīng)答案的問(wèn)答任務(wù),該任務(wù)是評(píng)估計(jì)機(jī)系統(tǒng)對(duì)自然語(yǔ)言理解程度的重要任務(wù)之一。相比于傳統(tǒng)的閱讀
    發(fā)表于 03-16 11:41 ?10次下載
    一種基于多任務(wù)聯(lián)合訓(xùn)練的<b class='flag-5'>閱讀</b><b class='flag-5'>理解</b><b class='flag-5'>模型</b>

    基于LSTM的表示學(xué)習(xí)-文本分類模型

    文本表示和分類是自然語(yǔ)言理解領(lǐng)域的研究熱點(diǎn)。目前已有很多文本分類方法,包括卷積網(wǎng)絡(luò)、遞歸網(wǎng)絡(luò)、自注意力機(jī)制以及它們的結(jié)合。但是,復(fù)雜的網(wǎng)絡(luò)并不能從根本上提高文本分類的性能,好的
    發(fā)表于 06-15 16:17 ?18次下載

    面向文本多片段答案的抽取式閱讀理解模式

    面向文本多片段答案的抽取式閱讀理解模式
    發(fā)表于 06-24 16:35 ?6次下載

    深度揭秘工字電感究竟需要測(cè)量哪些參數(shù)的好壞

    展開(kāi)剖析一些究竟工字電感要測(cè)量哪些參數(shù)。工字電感怎么測(cè)量好壞,關(guān)于測(cè)量的方法倒不是這個(gè)問(wèn)題的重點(diǎn),畢竟測(cè)量只需要借助專業(yè)的儀器設(shè)備就可以了。這個(gè)問(wèn)題的重點(diǎn)是要弄明白究竟需要測(cè)量工字電感的哪些信息。根據(jù)我
    的頭像 發(fā)表于 03-04 20:14 ?920次閱讀
    深度揭秘工字電感<b class='flag-5'>究竟需要</b>測(cè)量哪些參數(shù)的好壞
    主站蜘蛛池模板: 欧美性猛交xxx嘿人猛交 | 国内自拍欧美 | 天天草夜夜 | 国产成人精品日本亚洲网站 | 久久艹人人艹 | 国产一区中文字幕 | 天天做天天爽天天谢 | 日日操夜夜操天天操 | 激情综合丁香 | 丁香综合在线 | 精品国产污网站在线观看15 | 欧美色图亚洲综合 | 在线aa | 丁香五婷婷 | 三级黄色网 | 一区不卡在线观看 | 欧美最猛黑人xxxx黑人猛交69 | 毛片2016免费视频 | 中文字幕自拍 | 亚洲综合久久久久久888 | 一区二区3区免费视频 | 李老汉的性生生活2 | 日日操夜夜操免费视频 | 亚欧乱色束缚一区二区三区 | 手机在线看片你懂得 | 女同性大尺度床戏视频 | 天天爱添天天爱添天天爱添 | 二级片在线 | 欧美猛交lxxxxxxxxx | 在线天堂中文在线资源网 | 婷婷丁香久久 | 天天摸天天碰成人免费视频 | 欧美午夜色视频国产精品 | 亚洲人成影网站~色 | 免费网站在线视频美女被 | 午夜国产 | 99久热 | xxxxxxxxxxx性bbbb| 爱爱小视频免费 | 精品一区二区三区视频 | 日韩精品视频免费在线观看 |