9月份,我們兩位同學一起組隊,參加Byte Cup 2018國際機器學習競賽。本次比賽由中國人工智能學會和字節跳動主辦,IEEE中國代表處聯合組織。比賽的任務是文章標題自動生成。最終,我們隊伍獲得了第一名。
1.比賽介紹
本次比賽的任務是給定文章文本內容,自動生成標題。本質上和文本摘要任務比較類似。本次比賽有100多萬篇文章的訓練數據。
1.1數據介紹
詳細參見:https://biendata.com/competition/bytecup2018/data/。
本次競賽使用的訓練集包括了約130萬篇文本的信息,驗證集1000篇文章,
測試集800篇文章。
1.2數據處理
文章去重,訓練數據中包含一些重復數據,清洗,去重;
清洗非英文文章。
1.3評價指標
本次比賽將使用Rouge(Recall-Oriented Understudy for Gisting Evaluation)作為模型評估度量。Rough是評估自動文摘以及機器翻譯的常見指標。它通過將自動生成的文本與人工生成的文本(即參考文本)進行比較,根據相似度得出分值。
2.模型介紹
本次比賽主要嘗試了seq2seq的方法。參考的模型包括Transformer模型和pointer-generator模型。
模型如下圖:
(其實就是將pointer-generator的copy機制加到transformer模型上)。
同時,嘗試了將ner-tagger和pos-tagger信息加入到模型中,如下圖所示:
3.問題分析
最開始我們嘗試了最基本的transformer模型,通過查看數據,遇到以下幾類明顯錯誤:
OOV(out of vocabulary);
數字,人名,地名預測錯誤;
詞形預測錯誤。
OOV問題,主要原因是數據集詞表太大,但是,模型能夠實際使用的詞表較小;數字,人名,地名預測錯誤,主要原因是低頻詞embedding學習不充分;詞形預測錯誤,主要原因是模型中沒有考慮詞的形態問題(當然,如果訓練數據足夠大,是能避免這個問題的)。
為了解決這些問題,我們嘗試了以下方法。
4.重要組件
4.1copy機制
對于很多低頻詞,通過生成式方法生成,其實是很不靠譜的。為此,我們借鑒Pointer-generator的方法,在生成標題的單詞的時候,通過Attention的概率分布,從原文中拷貝詞。
4.2subword
為了避免oov問題,我們采用subword的方法,處理文本。這樣,可以將詞表大小減小到20k,同時,subword會包含一些單詞詞形結構的信息。
4.3ner-tagger和pos-tagger信息
因為baseline在數字,人名,地名,詞形上預測錯誤率較高,所以我們考慮能不能將ner-tagger和pos-tagger信息加入到模型中。如上圖所示。實驗證明通過加入這兩個序列信息能夠大大加快模型的收斂速度(訓練收斂后,指標上基本沒差異)。
在實驗過程中,我們發現transformer模型對batch_size非常敏感。之前,有研究者在機器翻譯任務中,通過實驗也證明了這一觀點。然而,對于文章標題生成任務,因為每個sample的文章長度較長,所以,并不能使用超大batch_size來訓練模型,所以,我們用Gradient Accumulation的方法模擬超大batch_size。
4.5ensemble
采用了兩層融合。第一層,對于每一個模型,將訓練最后保存的N個模型參數求平均值(在valid集上選擇最好的N)。第二層,通過不同隨機種子得到的兩個模型,一個作為生成候選標題模型(選擇不同的beam_width, length_penalty), 一個作為打分模型,將候選標題送到模型打分,選擇分數最高的標題。
5.失敗的方法
將copy機制加入到transformer遇到一些問題,我們直接在decoder倒數第二層加了一層Attention層作為copy機制需要的概率分布,訓練模型非常不穩定,并且結果比baseline還要差很多;
我們嘗試了bert,我們將bert-encoder抽出的feature拼接到我們模型的encoder的最后一層,結果并沒有得到提升;
word-embedding的選擇,我們使用glove和fasttext等預訓練的詞向量,模型收斂速度加快,但是,結果并沒有random的方法好。
6.結束語
非常感謝主辦方舉辦本次比賽,通過本次比賽,我們探索,學習到了很多算法方法和調參技巧。
-
人工智能
+關注
關注
1797文章
47867瀏覽量
240779 -
機器翻譯
+關注
關注
0文章
139瀏覽量
14963 -
數據集
+關注
關注
4文章
1210瀏覽量
24861
原文標題:Byte Cup 2018國際機器學習競賽奪冠記
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
機器學習模型市場前景如何
云天勵飛助力國際青少年機器人競賽IYRC圓滿落幕
如何選擇云原生機器學習平臺
螞蟻數科與浙大團隊榮獲NeurIPS競賽冠軍
什么是機器學習?通過機器學習方法能解決哪些問題?
![什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題?](https://file.elecfans.com/web2/M00/4E/DC/poYBAGLCjeiALm_WAAAYmfR7Qec474.png)
NPU與機器學習算法的關系
電子設計競賽準備經歷分享
![電子設計<b class='flag-5'>競賽</b>準備經歷分享](https://file1.elecfans.com/web2/M00/8D/79/wKgaomS7KZ-AY3GzAAArJzrUg1c443.png)
入門?畢設?競賽?項目練手?STM32/嵌入式/物聯網學習,有這幾款開發板就夠了!
![入門?畢設?<b class='flag-5'>競賽</b>?項目練手?STM32/嵌入式/物聯網<b class='flag-5'>學習</b>,有這幾款開發板就夠了!](https://file1.elecfans.com/web1/M00/F2/A6/wKgaoWcHkNaANi0QAAA7FI1NqQw084.png)
AMD贊助多支FIRST機器人競賽團隊
TE Connectivity AI Cup 第五屆全球競賽結果揭曉 中國高校團隊連續兩年奪得桂冠
![TE Connectivity AI <b class='flag-5'>Cup</b> 第五屆全球<b class='flag-5'>競賽</b>結果揭曉 中國高校團隊連續兩年奪得桂冠](https://file1.elecfans.com/web2/M00/FF/EB/wKgZomarLeOANeQoAAJOxTiNtY0435.jpg)
評論