在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Byte Cup 2018國際機器學習競賽奪冠記

IEEE電氣電子工程師 ? 來源:lq ? 2019-02-14 09:44 ? 次閱讀

9月份,我們兩位同學一起組隊,參加Byte Cup 2018國際機器學習競賽。本次比賽由中國人工智能學會和字節跳動主辦,IEEE中國代表處聯合組織。比賽的任務是文章標題自動生成。最終,我們隊伍獲得了第一名。

1.比賽介紹

本次比賽的任務是給定文章文本內容,自動生成標題。本質上和文本摘要任務比較類似。本次比賽有100多萬篇文章的訓練數據。

1.1數據介紹

詳細參見:https://biendata.com/competition/bytecup2018/data/。

本次競賽使用的訓練集包括了約130萬篇文本的信息,驗證集1000篇文章,

測試集800篇文章。

1.2數據處理

文章去重,訓練數據中包含一些重復數據,清洗,去重;

清洗非英文文章。

1.3評價指標

本次比賽將使用Rouge(Recall-Oriented Understudy for Gisting Evaluation)作為模型評估度量。Rough是評估自動文摘以及機器翻譯的常見指標。它通過將自動生成的文本與人工生成的文本(即參考文本)進行比較,根據相似度得出分值。

2.模型介紹

本次比賽主要嘗試了seq2seq的方法。參考的模型包括Transformer模型和pointer-generator模型。

模型如下圖:

(其實就是將pointer-generator的copy機制加到transformer模型上)。

同時,嘗試了將ner-tagger和pos-tagger信息加入到模型中,如下圖所示:

3.問題分析

最開始我們嘗試了最基本的transformer模型,通過查看數據,遇到以下幾類明顯錯誤:

OOV(out of vocabulary);

數字,人名,地名預測錯誤;

詞形預測錯誤。

OOV問題,主要原因是數據集詞表太大,但是,模型能夠實際使用的詞表較小;數字,人名,地名預測錯誤,主要原因是低頻詞embedding學習不充分;詞形預測錯誤,主要原因是模型中沒有考慮詞的形態問題(當然,如果訓練數據足夠大,是能避免這個問題的)。

為了解決這些問題,我們嘗試了以下方法。

4.重要組件

4.1copy機制

對于很多低頻詞,通過生成式方法生成,其實是很不靠譜的。為此,我們借鑒Pointer-generator的方法,在生成標題的單詞的時候,通過Attention的概率分布,從原文中拷貝詞。

4.2subword

為了避免oov問題,我們采用subword的方法,處理文本。這樣,可以將詞表大小減小到20k,同時,subword會包含一些單詞詞形結構的信息。

4.3ner-tagger和pos-tagger信息

因為baseline在數字,人名,地名,詞形上預測錯誤率較高,所以我們考慮能不能將ner-tagger和pos-tagger信息加入到模型中。如上圖所示。實驗證明通過加入這兩個序列信息能夠大大加快模型的收斂速度(訓練收斂后,指標上基本沒差異)。

4.4Gradient Accumulation

在實驗過程中,我們發現transformer模型對batch_size非常敏感。之前,有研究者在機器翻譯任務中,通過實驗也證明了這一觀點。然而,對于文章標題生成任務,因為每個sample的文章長度較長,所以,并不能使用超大batch_size來訓練模型,所以,我們用Gradient Accumulation的方法模擬超大batch_size。

4.5ensemble

采用了兩層融合。第一層,對于每一個模型,將訓練最后保存的N個模型參數求平均值(在valid集上選擇最好的N)。第二層,通過不同隨機種子得到的兩個模型,一個作為生成候選標題模型(選擇不同的beam_width, length_penalty), 一個作為打分模型,將候選標題送到模型打分,選擇分數最高的標題。

5.失敗的方法

將copy機制加入到transformer遇到一些問題,我們直接在decoder倒數第二層加了一層Attention層作為copy機制需要的概率分布,訓練模型非常不穩定,并且結果比baseline還要差很多;

我們嘗試了bert,我們將bert-encoder抽出的feature拼接到我們模型的encoder的最后一層,結果并沒有得到提升;

word-embedding的選擇,我們使用glove和fasttext等預訓練的詞向量,模型收斂速度加快,但是,結果并沒有random的方法好。

6.結束語

非常感謝主辦方舉辦本次比賽,通過本次比賽,我們探索,學習到了很多算法方法和調參技巧。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1797

    文章

    47867

    瀏覽量

    240779
  • 機器翻譯
    +關注

    關注

    0

    文章

    139

    瀏覽量

    14963
  • 數據集
    +關注

    關注

    4

    文章

    1210

    瀏覽量

    24861

原文標題:Byte Cup 2018國際機器學習競賽奪冠記

文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    機器學習模型市場前景如何

    當今,隨著算法的不斷優化、數據量的爆炸式增長以及計算能力的飛速提升,機器學習模型的市場前景愈發廣闊。下面,AI部落小編將探討機器學習模型市場的未來發展。
    的頭像 發表于 02-13 09:39 ?50次閱讀

    傳統機器學習方法和應用指導

    在上一篇文章中,我們介紹了機器學習的關鍵概念術語。在本文中,我們會介紹傳統機器學習的基礎知識和多種算法特征,供各位老師選擇。 01 傳統機器
    的頭像 發表于 12-30 09:16 ?427次閱讀
    傳統<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法和應用指導

    云天勵飛助力國際青少年機器競賽IYRC圓滿落幕

    近日,由云天勵飛與華嶺韓端共同主辦的第十二屆IYRC青少年數字創意機器國際邀請展示活動暨2024開源鴻蒙數字創意文化產業高峰論壇在深圳舉行。
    的頭像 發表于 12-26 10:39 ?236次閱讀

    如何選擇云原生機器學習平臺

    當今,云原生機器學習平臺因其彈性擴展、高效部署、低成本運營等優勢,逐漸成為企業構建和部署機器學習應用的首選。然而,市場上的云原生機器
    的頭像 發表于 12-25 11:54 ?181次閱讀

    螞蟻數科與浙大團隊榮獲NeurIPS競賽冠軍

    近日,在機器學習領域的頂級國際會議NeurIPS的特設競賽中,螞蟻數科旗下的摩斯聯合浙江大學計算機體系結構實驗室陳文智、魏成坤團隊組成的“Morse ARCLab”參賽隊伍憑借出色的表
    的頭像 發表于 11-26 10:27 ?376次閱讀

    什么是機器學習?通過機器學習方法能解決哪些問題?

    來源:Master編程樹“機器學習”最初的研究動機是讓計算機系統具有人的學習能力以便實現人工智能。因為沒有學習能力的系統很難被認為是具有智能的。目前被廣泛采用的
    的頭像 發表于 11-16 01:07 ?542次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題?

    NPU與機器學習算法的關系

    在人工智能領域,機器學習算法是實現智能系統的核心。隨著數據量的激增和算法復雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習機器
    的頭像 發表于 11-15 09:19 ?657次閱讀

    電子設計競賽準備經歷分享

    在我大學生涯中,參加電子設計競賽無疑是一段難忘且充滿挑戰的經歷。從最初的迷茫與不安,到最終的收獲與成長,這段旅程讓我深刻體會到了團隊合作的力量,以及不斷學習與探索的重要性。以下是我個人參加電子設計競賽的準備經歷,希望能為即將參賽
    的頭像 發表于 11-06 10:49 ?326次閱讀
    電子設計<b class='flag-5'>競賽</b>準備經歷分享

    入門?畢設?競賽?項目練手?STM32/嵌入式/物聯網學習,有這幾款開發板就夠了!

    、項目練手、創新競賽、技能認證等。01STM32入門+項目進階學習適用場合高校教學、學生畢設、個人學習、項目練手、創新競賽、技術認證可學習
    的頭像 發表于 10-10 16:31 ?452次閱讀
    入門?畢設?<b class='flag-5'>競賽</b>?項目練手?STM32/嵌入式/物聯網<b class='flag-5'>學習</b>,有這幾款開發板就夠了!

    AMD贊助多支FIRST機器競賽團隊

    AMD 在 2024 賽季贊助了多支 FIRST 機器競賽團隊。FIRST 機器競賽旨在教導高中生如何構建能夠執行特定任務的機器人,同時
    的頭像 發表于 09-18 09:45 ?534次閱讀

    TE Connectivity AI Cup 第五屆全球競賽結果揭曉 中國高校團隊連續兩年奪得桂冠

    中國上海 - 2024 年 7 月 31 日 - 近日,由全球行業技術領先企業TE Connectivity(以下簡稱“TE”)主辦的TE AI Cup第五屆全球競賽圓滿收官。來自華南農業大學
    發表于 08-01 14:39 ?2537次閱讀
    TE Connectivity AI <b class='flag-5'>Cup</b> 第五屆全球<b class='flag-5'>競賽</b>結果揭曉 中國高校團隊連續兩年奪得桂冠

    機器學習算法原理詳解

    機器學習作為人工智能的一個重要分支,其目標是通過讓計算機自動從數據中學習并改進其性能,而無需進行明確的編程。本文將深入解讀幾種常見的機器學習
    的頭像 發表于 07-02 11:25 ?1430次閱讀

    深度學習與傳統機器學習的對比

    在人工智能的浪潮中,機器學習和深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步,為眾多領域帶來了革命性的變化。然而,盡管它們都屬于機器
    的頭像 發表于 07-01 11:40 ?1572次閱讀

    格靈深瞳斬獲首屆花樣滑冰動作識別競賽奪冠

    近日,第一屆花樣滑冰動作識別挑戰賽公布了本次競賽的結果,格靈深瞳憑借領先的算法能力斬獲了冠軍,并包攬了本次挑戰賽的前兩名。
    的頭像 發表于 05-13 14:04 ?476次閱讀
    格靈深瞳斬獲首屆花樣滑冰動作識別<b class='flag-5'>競賽</b><b class='flag-5'>奪冠</b>

    機器學習8大調參技巧

    今天給大家一篇關于機器學習調參技巧的文章。超參數調優是機器學習例程中的基本步驟之一。該方法也稱為超參數優化,需要搜索超參數的最佳配置以實現最佳性能。
    的頭像 發表于 03-23 08:26 ?737次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>8大調參技巧
    主站蜘蛛池模板: 国产成人三级经典中文 | 色噜噜亚洲 | 色老头一区二区三区在线观看 | 国产人成午夜免费看 | 国产成人三级 | 国产成人精品三级 | 操白虎美女 | 两性色午夜视频免费国产 | caobi在线观看 | 亚洲电影一区二区三区 | 在线免费看片 | 永久免费在线视频 | 亚洲免费福利视频 | 网络色综合久久 | 九九视频只有精品 | 亚洲国产精品热久久2022 | 国内久久久久高清影视 | 色婷婷色99国产综合精品 | 国产午夜在线视频 | 女同性进行性行为视频 | 国产午夜精品理论片 | 97超在线| 性免费网站 | 福利影院在线 | 亚洲伊人色一综合网 | 加勒比日本在线 | 九九精品久久久久久噜噜 | 国产免费一区二区三区最新 | 国产又大又黄又粗又爽 | 亚洲男人a天堂在线2184 | 午夜影院免费在线观看 | 99热一区| 大象焦伊人久久综合网色视 | 欧美午夜视频 | 一区二区三区免费 | 大香伊人网| 亚洲男人的天堂在线观看 | 在厨房乱子伦在线观看 | 天天操天天艹 | 天天干天天看 | 又粗又爽又色男女乱淫播放男女 |