欢乐颂小说结局是什么,欢乐颂第二季,懒人听书

近日，數(shù)據(jù)挖掘領(lǐng)域頂會PAKDD的AutoML挑戰(zhàn)賽結(jié)果出爐，DeepBlueAI、微軟&北航、清華大學(xué)等團(tuán)隊(duì)斬獲前三名。本文帶來冠軍團(tuán)隊(duì)解決方案的技術(shù)分享。

PAKDD 2019 AutoML挑戰(zhàn)賽結(jié)果出爐：國內(nèi)團(tuán)隊(duì) DeepBlueAI 斬獲第一名，微軟亞洲研究院&北航組成的ML Intelligence團(tuán)隊(duì)獲得第二名，清華大學(xué)Meta_Learners團(tuán)隊(duì)獲得第三。

Feedback phase 排行榜

PAKDD 全稱亞太地區(qū)知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際會議（Pacific Asia Knowledge Discovery and Data Mining），是亞太地區(qū)數(shù)據(jù)挖掘領(lǐng)域的頂級國際會議。該會議在全球數(shù)據(jù)挖掘領(lǐng)域享有盛譽(yù)，一直受到業(yè)內(nèi)各國科學(xué)家的高度重視和廣泛認(rèn)可。

PAKDD 2019 第 4 屆自動機(jī)器學(xué)習(xí)挑戰(zhàn)賽（AutoML Challenge）的主題是“AutoML for Lifelong Machine Learning”，要求參賽選手創(chuàng)建一個(gè)自動預(yù)測模型（沒有任何人為干預(yù)），并在一個(gè)終身機(jī)器學(xué)習(xí)（Lifelong Machine Learning）設(shè)置中訓(xùn)練和評估該模型。

AutoML，全稱為Automated Machine Learning，是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)新興方向。旨在自動化整個(gè)機(jī)器學(xué)習(xí)的流程，降低數(shù)據(jù)預(yù)處理、特征工程、模型選擇、參數(shù)調(diào)節(jié)等環(huán)節(jié)中的人工成本。

隨著機(jī)器學(xué)習(xí)系統(tǒng)的日益復(fù)雜化，AutoML 得到了產(chǎn)學(xué)研各界的廣泛關(guān)注，已成為人工智能領(lǐng)域最熱門的研究方向之一。

據(jù)悉，本次競賽共有 127 個(gè)隊(duì)伍參加，共收到 550 多個(gè)方案，最終有 31 個(gè)隊(duì)伍進(jìn)入決賽。

最終獲勝的隊(duì)伍為：

冠軍：DeepBlueAI，羅志鵬，黃堅(jiān)強(qiáng)，陳明健

亞軍：ML Intelligence，包夢蛟，Hui Xue，Yihuan Mao，Yujing Wang

季軍：Meta_Learners，熊錚，蔣繼研，張文鵬

接下來，本文帶來冠軍團(tuán)隊(duì)解決方案的分享。

冠軍方案關(guān)鍵技術(shù)：自動特征工程和自動快速特征選擇

如下圖所示，研究團(tuán)隊(duì)實(shí)現(xiàn)了一個(gè)Lifelong AutoML 框架，包括自動特征工程和自動快速特征選擇、自動模型調(diào)參、自動模型融合等步驟，在類別不平衡的處理上我們使用了自適應(yīng)采樣并在模型訓(xùn)練上有一定的創(chuàng)新，對概念漂移問題我們結(jié)合DNN的預(yù)訓(xùn)練和LightGBM的再訓(xùn)練以及針對性地設(shè)計(jì)特征來緩解概念漂移，并且利用了多種策略對運(yùn)行時(shí)間和運(yùn)行內(nèi)存進(jìn)行了有效的控制，以確保解決方案能在限制時(shí)間和內(nèi)存下完成整個(gè)流程。

自動特征工程與快速特征選擇：

與以往的AutoML框架所不同的是，我們的框架更加注重自動特征工程與特征選擇，我們構(gòu)建的自動特征工程不僅是基于時(shí)間特征、分類特征、數(shù)值特征、多值分類特征做特征間的高階組合，同時(shí)我們自動提取跨時(shí)間、樣本的高階組合。

對于特征選擇，我們結(jié)合特征重要性及序列后向選擇算法實(shí)現(xiàn)了一個(gè)有效的快速特征選擇，在忽略重要性低的特征上結(jié)合序列后向特征選擇算法，對重要性極高的特征進(jìn)行篩選，這能快速地篩選掉過擬合特征，從而大幅度提高模型性能。為了避免維度災(zāi)難，我們迭代地進(jìn)行特征工程和特征選擇，在低階特征生成后，利用特征選擇過濾大部分特征，在其基礎(chǔ)上進(jìn)行更高階的特征組合，更有效地提取了高階特征并避免了維度災(zāi)難。

緩解類別不平衡：

我們能夠自動針對數(shù)據(jù)情況（數(shù)據(jù)大小，數(shù)據(jù)類型，以及正負(fù)樣本比例），以及比賽時(shí)間的限制等各種因素的不同，自適應(yīng)地對數(shù)據(jù)采取不同的采樣方式和比例，既保證了效率的同時(shí)又保證了效果。傳統(tǒng)的類別不平衡的數(shù)據(jù)訓(xùn)練方式，是通過提前對數(shù)據(jù)進(jìn)行采樣，緩解類別不平衡問題，然后將數(shù)據(jù)加入模型中訓(xùn)練。但是這樣會損失大量的數(shù)據(jù)信息，所以我們在數(shù)據(jù)采樣的時(shí)候，仍然保留大量的高比例樣本，并且將其分批，在加入模型中訓(xùn)練時(shí)，讓模型在梯度提升中輪流訓(xùn)練分批數(shù)據(jù)，這樣能夠盡可能保留更多的原始數(shù)據(jù)的信息，同時(shí)緩解了類別不平衡問題。

抗概念漂移處理：

針對數(shù)據(jù)大小，數(shù)據(jù)復(fù)雜度，自適應(yīng)選擇batch數(shù)目。同時(shí)，對于每個(gè)batch，加入了“不同batch間采樣率隨時(shí)間增加”機(jī)制。我們使用DNN模型對特征Embedding進(jìn)行預(yù)訓(xùn)練，遷移到新的數(shù)據(jù)批上進(jìn)行再訓(xùn)練，有效地緩解了概念漂移和增強(qiáng)了特征表達(dá)。

挑戰(zhàn)和改進(jìn)

研究團(tuán)隊(duì)表示，不同特征類型的處理是本次大賽最棘手的挑戰(zhàn)。

本次大賽數(shù)據(jù)由多種不同的數(shù)據(jù)類型組成，這些都是現(xiàn)實(shí)世界問題需要處理的真實(shí)數(shù)據(jù)。而現(xiàn)有的AutoML框架往往只支持?jǐn)?shù)值類型，不能簡單將現(xiàn)有框架應(yīng)用到這些現(xiàn)實(shí)數(shù)據(jù)中。研究人員通過以往的大量競賽及實(shí)際項(xiàng)目經(jīng)驗(yàn)，在特征工程處理上加入了大量的先驗(yàn)知識，使得框架能支持不同特征類型的特征工程，以及能自動對這些不同類型特征做高階組合以及特征選擇。支持更多的數(shù)據(jù)類型而不僅僅是數(shù)值類型保證了AutoML能應(yīng)用到更廣泛的現(xiàn)實(shí)問題中，大大增強(qiáng)了AutoML的實(shí)用性。

團(tuán)隊(duì)表示，該解決方案有一些可以改進(jìn)的方面：

首先，比賽所使用的數(shù)據(jù)僅來自于10個(gè)不同的任務(wù)，雖然我們在10個(gè)任務(wù)的數(shù)據(jù)集上都取得了很好的效果，但并不能保證我們的AutoML框架能應(yīng)用到更廣泛的不同現(xiàn)實(shí)世界問題中。

其次，比賽所提供的都是單表數(shù)據(jù)，而現(xiàn)實(shí)中的問題往往是多表關(guān)聯(lián)的且關(guān)系復(fù)雜的，表間的關(guān)系往往包括多對多、一對多、多對一、一對一等多種關(guān)系。

為了更好地將AutoML應(yīng)用到現(xiàn)實(shí)問題中，我們將設(shè)計(jì)并實(shí)現(xiàn)并實(shí)現(xiàn)支持多表聯(lián)結(jié)數(shù)據(jù)以及不同數(shù)據(jù)類型的AutoML框架，將該框架應(yīng)用到更多現(xiàn)實(shí)世界問題的數(shù)據(jù)上進(jìn)行測試。

終生自動化機(jī)器學(xué)習(xí)：AutoML對現(xiàn)實(shí)世界問題的意義

這次比賽將AutoML擴(kuò)展到了多種不同的數(shù)據(jù)類型上，其目標(biāo)是實(shí)現(xiàn)一個(gè)支持不同數(shù)據(jù)類型并能適應(yīng)概念漂移的終生自動化機(jī)器學(xué)習(xí)。

首先，現(xiàn)實(shí)世界問題的數(shù)據(jù)往往是多種不同數(shù)據(jù)類型的，需要特定領(lǐng)域的專家對這些數(shù)據(jù)進(jìn)行大量的預(yù)處理及特征工程，而現(xiàn)有的自動化機(jī)器學(xué)習(xí)框架又僅支持?jǐn)?shù)值類型，對其他類型不能有很好的支持，很難應(yīng)用到各種現(xiàn)實(shí)世界問題中。在這次比賽中，我們團(tuán)隊(duì)設(shè)計(jì)的AutoML將自動化機(jī)器學(xué)習(xí)擴(kuò)展到了多種數(shù)據(jù)類型，引入了不同類型的特征預(yù)處理以及不同類型特征的特征工程及特征組合，這樣能在不需要專家的干預(yù)下將AutoML應(yīng)用到更多的現(xiàn)實(shí)世界問題中。

其次，許多現(xiàn)實(shí)世界問題數(shù)據(jù)是根據(jù)時(shí)間逐漸獲取的，數(shù)據(jù)間往往帶有概念漂移，并存在大量的類別不平衡問題，模型需要不停地重復(fù)訓(xùn)練去適應(yīng)概念漂移并需要專家去處理概念漂移及類別不平衡問題。我們團(tuán)隊(duì)設(shè)計(jì)的框架通過融合不同時(shí)期的數(shù)據(jù)以及結(jié)合DNN和LightGBM的訓(xùn)練來自適應(yīng)概念漂移，引入了自適應(yīng)采樣以及對梯度提升模型的采樣率進(jìn)行改進(jìn)來緩解類別不平衡，實(shí)現(xiàn)了終生機(jī)器學(xué)習(xí)。

我們設(shè)計(jì)的終生自動化機(jī)器學(xué)習(xí)框架可以應(yīng)用到各種現(xiàn)實(shí)世界問題中，例如在推薦系統(tǒng)、異常檢測、在線廣告、欺詐檢測、運(yùn)輸監(jiān)控、計(jì)量經(jīng)濟(jì)學(xué)、病人監(jiān)控等諸多領(lǐng)域中，無需領(lǐng)域?qū)＜业母深A(yù)，我們的框架可以訓(xùn)練出一個(gè)性能高、時(shí)效性強(qiáng)、時(shí)間可行的模型，從而降低應(yīng)用門檻，縮短項(xiàng)目開發(fā)周期，促進(jìn)機(jī)器學(xué)習(xí)的大規(guī)模落地。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

微軟

微軟

+關(guān)注

關(guān)注
4

文章
6676

瀏覽量
105449
數(shù)據(jù)挖掘

數(shù)據(jù)挖掘

+關(guān)注

關(guān)注
1

文章
406

瀏覽量
24642
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8496

瀏覽量
134218

原文標(biāo)題：PAKDD AutoML競賽結(jié)果出爐，冠軍方案關(guān)鍵技術(shù)解讀

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

PAKDD 2019 AutoML挑戰(zhàn)賽結(jié)果出爐：國內(nèi)團(tuán)隊(duì)DeepBlueAI斬獲第一名

評論