在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

SDNet成為目前世界上唯一在CoQA領域內數據集上F1得分超過80%的模型,達到80.7%

DPVg_AI_era ? 來源:lq ? 2018-12-18 09:07 ? 次閱讀

微軟語音與對話研究團隊開發的SDNet,在面向公共數據集CoQA的問答對話系統模型性能挑戰賽中刷新最佳性能紀錄,成功奪冠!SDNet成為目前世界上唯一在CoQA領域內數據集上F1得分超過80%的模型,達到80.7%。

近日,微軟語音與對話研究團隊在斯坦福機器對話式問答數據挑戰賽CoQA Challenge中奪冠,并且單模型和集成模型分別位列第二和第一,讓機器閱讀理解向著人類水平又靠近了一步。

這也是繼語音識別、機器翻譯等成果之后,微軟取得的又一項好成績。

微軟研究人員將自注意力模型和外部注意力相結合,并且用新的方法整合了谷歌BERT語境模型,構建了一個基于注意力的會話式問答深度神經網絡SDNet,更有效地理解文本和對話歷史。

一直以來,微軟研究人員都有在機器閱讀理解中使用自注意力模型加外部注意力的想法,終于在這項工作中首次得以實現。

CoQA競賽:更接近人類對話的機器問答挑戰賽

CoQA是面向建立對話式問答系統的大型數據集,CoQA挑戰的目標是衡量機器對文本的理解能力,以及機器面向對話中出現的彼此相關的問題的回答能力的高低(CoQA的發音是“扣卡”)。

CoQA包含12.7萬個問題和答案,這些內容是從8000多個對話中收集而來的。每組對話都是通過眾籌方式,以真人問答的形式在聊天中獲取的。

CoQA的獨特之處在于:

數據集中的問題是對話式的

答案可以是自由格式的文本

每個答案還附有對話段落中相應答案的理由

這些問題收集自七個不同的領域

CoQA 數據集旨在體現人類對話中的特質,追求答案的自然性和問答系統的魯棒性。在CoQA 中,答案沒有固定的格式,在問題中頻繁出現指代詞,而且有專門用于跨領域測試的數據集。

CoQA具備了許多現有閱讀理解數據集中不存在的挑戰,比如共用參照和實用推理等。因此,CoQA Challenge 也更能反映人類真實對話的場景。

CoQA 與 SQuAD 兩個數據集對比:SQuAD 中約一半都是what型,CoAQ種類更多;SQuAD中沒有共識推斷,CoQA幾乎每組對話都需要進行上下文理解推斷;SQuAD中所有答案均可從原文本中提取,CoQA中這一比例僅為66.8%。

此前,斯坦福大學的自然語言處理小組已經先后發表了 SQuAD 和 SQuAD2.0 數據集。該數據集包含一系列文本和基于文本的問題、答案。針對該數據集提出的任務要求系統閱讀文本后判斷該問題是否可以從文本中得出答案,如果可以回答則從文本中截取某一片段做出回答。

目前,微軟語音與對話研究已經把他們在CoQA Challenge上奪冠成果的預印本論文發在了Arxiv上。下面結合論文內容,對該團隊的實驗方法和研究成果做簡單介紹。

結合自注意力模型和外部注意力,更有效理解文本和對話歷史

在本文中,我們提出了SDNet,一種基于語境注意力的會話問答的深度神經網絡。我們的網絡源于機器閱讀理解模型,但具備幾個獨特的特征,來解決面向對話的情境理解問題。

首先,我們在對話和問題中同時應用注意力和自我注意機制,更有效地理解文章和對話的歷史。其次,SDNet利用了NLP領域的最新突破性成果:比如BERT上下文嵌入Devlin等。

我們采用了BERT層輸出的加權和,以及鎖定的BERT參數。我們在前幾輪問題和答案之前加上了當前問題,以納入背景信息。結果表明,每個部分都實現了顯著提高了預測準確性的作用。

我們在CoQA數據集上對SDNet進行了評估,結果在全局F1得分方面,比之前最先進模型結果表現提升了1.6%(從75.0%至76.6%)。整體模型進一步將F1得分提升至79.3%。此外,SDNet是有史以來第一個在CoQA的領域內數據集上表現超過80%的模型。

實驗方法與衡量指標

我們在CoQA 上評估了我們的模型。在CoQA中,許多問題的答案需要理解之前的問題和答案,這對傳統的機器閱讀模型提出了挑戰。表1總結了CoQA中的領域分布。如圖所示,CoQA包含來自多個領域的段落,并且每個段落的平均問答超過15個。許多問題需要上下文的理解才能生成正確答案。

對于每個域內數據集,開發集中有100個段落,測試集中有100個段落。其余的域內數據集位于訓練集中。測試集還包括所有域外段落。

基線模型和指標

我們將SDNet與以下基線模型進行了比較:PGNet(具有復制機制的Seq2Seq)、DrQA、DrQA +PGNet、BiDAF ++ Yatskar(2018)和FlowQA Huang等。 (2018)。與官方排行榜一致,我們使用F1作為評估指標,F1是在預測答案和基本事實之間的單詞級別的精度上的調和平均。

結果

上表所示為SDNet和基線模型的性能對比。如圖所示,使用SDNet的實現結果明顯好于基線模型。具體而言,與先前的CoQA FlowQA模型相比,單個SDNet模型將整體F1得分提高了1.6%。 Ensemble SDNet模型進一步將整體F1得分提升了2.7%,SDNet是有史以來第一個在CoQA的領域內數據集上表現超過80%的模型(80.7%)。

上圖所示為開發集隨epoch變化的F1得分情況。SDNet在第二個epoch之后的表現超越了兩個基線模型,并且僅在8個epoch后就實現了最優秀的表現。

消融研究 (Ablation)

我們對SDNet模型進行了消融研究,結果在上表中顯示。結果表明,正確使用上下文嵌入BERT是至關重要的。雖然移除BERT會使開發集的F1得分降低6.4%,但在未鎖定內部權重的情況下加入BERT會使得F1得分降低13%。

上下文歷史

在SDNet中,我們將當前問題與前N輪問題和真實答案前置一致,來利用對話歷史記錄。我們試驗了不同的N值的效果,并在表4中列出了結果。試驗顯示,我們的模型的性能對N的設置不是非常敏感。最后,我們的最終模型設置N = 2。

未來:讓模型更接近于真人對話場景

我們提出了一種新的基于情境注意的深度神經網絡SDNet,以解決對話問題的回答任務。通過在通過和對話歷史上利用注意力和自我關注,該模型能夠理解對話流并將其與消化段落內容融合在一起。

此外,我們融入了自然語言處理領域 BERT的最新突破,并以創新的方式利用它。與以前的方法相比,SDNet取得了卓越的成果。在公共數據集CoQA上,SDNet在整體F1指標得分上的表現比之前最先進的模型高1.6%。

縱觀CoQA Challenge排行榜,從今年8月21日到11月29日,短短3個月時間里,機器問答對話的總體成績就從52.6提升到79.3,距離人類水平88.8似乎指日可待。

“最后一公里往往是最難的,很難預測機器能否達到人類水平。”論文作者之一、微軟全球技術Fellow、負責微軟語音、自然語言和機器翻譯工作的黃學東博士告訴新智元。

未來,他們打算將SDNet模型應用于具有大型語料庫或知識庫的開放域中,解決多循環問答問題,這類問題中,目標段落可能是無法直接獲得的。這和人類世界中的問答的實際情況可能更為接近。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6636

    瀏覽量

    104573
  • 神經網絡
    +關注

    關注

    42

    文章

    4785

    瀏覽量

    101273
  • 數據集
    +關注

    關注

    4

    文章

    1210

    瀏覽量

    24861

原文標題:微軟創CoQA挑戰新紀錄,最接近人類水平的NLP系統誕生

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    請問有沒有不在linux對.pt模型向.kmodel轉換的教程呢?

    的文章 但是里面很多參數以及.npy的數據我不知道怎么填寫及處理。 2、還有個問題,現在yolo有個obb模塊可以檢測物體的傾斜角度,請問用這個模塊訓練出來的
    發表于 02-08 08:56

    Deepseek單片機?RT-Thread跑通大語言模型

    前言單片機也能聊天?RT-Thread跑通大語言模型RT-Thread論壇忽然看到了單片機和大模型對話的文章,想著春節期間看到大語言
    的頭像 發表于 02-07 18:59 ?417次閱讀
    Deepseek<b class='flag-5'>上</b>單片機?RT-Thread<b class='flag-5'>上</b>跑通大語言<b class='flag-5'>模型</b>

    GaNSafe–世界上最安全的GaN功率半導體

    電子發燒友網站提供《GaNSafe–世界上最安全的GaN功率半導體.pdf》資料免費下載
    發表于 01-24 13:50 ?0次下載
    GaNSafe–<b class='flag-5'>世界上</b>最安全的GaN功率半導體

    依托新的全球數據識別人工智能領域輪涌現的杰出女性

    全球人工智能和數據崗位中僅占比25%,全球科學家當中占比不到30%。 Zeki是唯一在全球范圍識別未被挖掘、缺乏充分代表和被低估的女性
    的頭像 發表于 01-19 09:39 ?135次閱讀

    世界上最貴的錫膏-金錫(Au80Sn20)

    獨特的性能和稀缺性而備受矚目。作為世界上最貴的錫膏之,金錫合金錫膏高端電子產品的制造中扮演著重要角色。金錫的應用金錫焊料的熔點為280℃,具有優異的導熱、導電性
    的頭像 發表于 12-16 11:00 ?316次閱讀
    <b class='flag-5'>世界上</b>最貴的錫膏-金錫(Au<b class='flag-5'>80</b>Sn20)

    助力AIoT應用:米爾FPGA開發板實現Tiny YOLO V4

    量和內存占用) 三、 獲取數據模型可下載開源訓練或預訓練模型。為了確保兼容性,建議將模型
    發表于 12-06 17:18

    激光軟釬焊技術:SMT領域內的現狀與未來發展趨勢(

    激光軟釬焊技術正成為SMT領域項關鍵技術,它通過使用激光作為熱源,實現了對電子元件的精密焊接。這項技術以其非接觸式加熱、熱影響區小、快速加熱與冷卻等優勢,特別適合于微小空間和復雜立體產品的焊接
    的頭像 發表于 09-29 13:57 ?501次閱讀
    激光軟釬焊技術:SMT<b class='flag-5'>領域內</b>的現狀與未來發展趨勢(<b class='flag-5'>上</b>)

    NVIDIA為AI城市挑戰賽構建合成數據

    一年一度的 AI 城市挑戰賽中,來自世界各地的數百支參賽隊伍 NVIDIA Omniverse 生成的基于物理學的數據
    的頭像 發表于 09-09 10:04 ?574次閱讀

    英特爾酷睿Ultra7處理器優化和部署Phi-3-min模型

    (例如,phi-3-miniMMLU測試中達到了69%的準確率,MT-bench得分為8.38)。
    的頭像 發表于 08-30 16:58 ?791次閱讀
    <b class='flag-5'>在</b>英特爾酷睿Ultra7處理器<b class='flag-5'>上</b>優化和部署Phi-3-min<b class='flag-5'>模型</b>

    chatglm2-6bP40做LORA微調

    背景: 目前,大模型的技術應用已經遍地開花。最快的應用方式無非是利用自有垂直領域數據進行模型微調。chatglm2-6b
    的頭像 發表于 08-13 17:12 ?589次閱讀
    chatglm2-6b<b class='flag-5'>在</b>P40<b class='flag-5'>上</b>做LORA微調

    esp-dl int8量化模型數據評估精度下降的疑問求解?

    試著將模型進行了esp-dlint16和int8的量化,并在測試數據上進行精度評估,其中int16的
    發表于 06-28 15:10

    2024年全新教程 Claude 3賬號注冊與登錄全攻略 附已注冊賬號密碼成品

    測試中的得分為67.2%,超過領域內專業博士的水平。 這是第次有大語言模型GPQA測試中突
    的頭像 發表于 06-23 09:34 ?2506次閱讀
    2024年全新教程 Claude 3賬號注冊與登錄全攻略 附已注冊賬號密碼成品

    助聽器降噪神經網絡模型

    用作 1D-Conv 層的輸入,用于將估計表示轉換回時域。最后步中,通過重疊相加過程重建信號。 訓練數據是根據DNS 挑戰賽提供的音頻
    發表于 05-11 17:15

    羅馬尼亞中心探索世界上強大的激光器

    近日,世界上最強大的激光器激活了,該系統能使激光脈沖在1飛秒(1000萬億分之秒)達到10拍瓦(1
    的頭像 發表于 04-29 06:37 ?518次閱讀

    國產GPUAI大模型領域的應用案例

    不斷推出新品,產品也逐漸各個領域取得應用,而且模型的訓練和推理方面,也有所建樹。 ? 國產GPU
    的頭像 發表于 04-01 09:28 ?4232次閱讀
    國產GPU<b class='flag-5'>在</b>AI大<b class='flag-5'>模型領域</b>的應用案例<b class='flag-5'>一</b>覽
    主站蜘蛛池模板: 悠悠影院欧美日韩国产 | 日本番囗| 天天爽夜夜 | 亚洲国产美女精品久久 | 欧美色图日韩色图 | 午夜狠狠操 | 鲁一鲁色一色 | 欧美特级午夜一区二区三区 | 偷偷狠狠的日日日日 | www.三级.com| 性夜影院爽黄a爽免费视频 性瘾高h姚蕊全文免费阅读 | 免费观看四虎精品国产永久 | 色精品一区二区三区 | 一级毛片一级毛片一级级毛片 | 人人澡人人添 | 亚洲香蕉久久一区二区三区四区 | 浓厚な接吻と肉体の交在线观看 | 黄色在线网站视频 | 五月天激激婷婷大综合丁香 | 亚洲综合精品香蕉久久网97 | 欧美福利在线播放 | 不卡一区在线观看 | 国产激情视频一区二区三区 | 美女牲交毛片一级视频 | 唐人社电亚洲一区二区三区 | 久久99精品久久久久久园产越南 | 蜜色网| 天堂色综合 | 国产精品视频网站你懂得 | 色天使美国| 色视频色露露永久免费观看 | 天堂在线观看视频观看www | 亚洲成a人在线播放www | 国产免费播放一区二区三区 | 国产乱码精品一区二区三区四川人 | 簧片地址| 精品欧美激情在线看 | 91大神在线视频观看 | 亚洲线精品一区二区三区 | 欧美日本一区 | 青草久操 |