不久前剛結束FDDC大賽,武漢大學計算機學院軟件工程實驗室的Alassea lome團隊,獲得上市公司營業收入預測賽題第一名,而一人團隊GOGOGO則摘得上市公司公告信息抽取賽題桂冠,本文主要將冠軍的方案以及大賽亮點進行介紹和回顧。
上月底,2018全球金融數據探索與發現大賽(FDDC)的決賽落幕,10支隊伍激烈角逐,也讓現場觀眾見證了AI將如何改變資產管理的未來。
FDDC大賽是全球首場專注金融領域、深入投資實戰的技術大賽,由中國證券投資基金業協會(以下簡稱“基金業協會”)金融科技專業委員會主辦,易方達基金、華夏基金、通聯數據、阿里云共同承辦,獎金池一共高達84萬元。
大賽共有兩個任務,一是利用AI對上市公司進行營收預測,另一個是對上市公司公告進行信息抽取。這兩個都是資產管理中最基本而又最重要的兩項工作,往往會決定投資決策的成敗。
FDDC大賽,旨在挖掘更多頂尖算法人才,提升資產管理行業的科技化程度。在3個多月的時間里,大賽吸引了全球4231支隊伍參與,經過線上初賽和復賽,共有10支隊伍進入最終決賽。
最終,來自武漢大學計算機學院軟件工程實驗室的Alassea lome團隊,將預測誤差降低至7%,獲得上市公司營業收入預測賽題第一名,而一人團隊GOGOGO則摘得上市公司公告信息抽取賽題桂冠。
數值預測準確率最高 獨特數據處理,將營收預測誤差僅7%!
Alassea lome團隊來自于武漢大學計算機學院軟件工程實驗室,團隊的導師為蔡恒進,主要研究領域是人工智能、金融信息工程及服務科學。
FDDC大賽上市公司營收預測賽題第一名Alassea Lome團隊
這次的“上市公司營收預測”賽題,官方到的數據包括三大財務報表、宏觀數據、行業數據、公司經營數據、行情數據等。比賽評測指標是選手對公司二季度的營業收入比率誤差的計算,如何準備預測公司半年報實際營收,是這道賽題取勝的關鍵。
在訓練集生成上,團隊首先把三大財務報表里面的數據提取出來,接下來引入申萬的行業分類這一類別特征。值得注意的是,申萬的一級行業分類由28個被團隊拆分成30個,同時還加入了能夠表征行業數據的指數行情,以及行業估值信息,這里面所有的指標都會經過團隊的獨特處理。
在公司的維度,團隊加入滬深股票日行情以及個股日資金流向,同時引入財務衍生數據和多因子數據。這些特征的比起基本財務數據的優勢在于,它們是經過優秀的研究員精心挑選和計算過,可能更具有解釋力。
除了剛剛提到的特征,團隊還加入了滑窗特征。滑窗特征是什么呢?
以預測公司二季度的營收為例,除了告訴模型一季度營收之外,還告訴公司前四季度的營收。之所以這樣做的原因是,金融數據是一個時序非常強的序列,因此團隊還告訴模型它的歷史上的一些信息。相應的,團隊還加入了比率滑窗的特征。
訓練方式采取了滑窗模式,五年一滑,但是有三個驗證集。模型的最優參數是在三個驗證集上的平均loss最小的參數,還列舉了不同的模型算法它的表現。
選了那么多特征之后,怎么把最重要的特征篩選出來呢?
首先團隊會多輪預跑,得到所有特征的重要性。然后選出來重要特征重新生成訓練集,在訓練集上進行網格搜索,確定最優的模型參數。
模型部署方面,時序模型不需要訓練,它的loss大概在0.48左右。團隊的主模型是xgb,輔助模型是Random Forest。模型融合是線性分類器,模型保存了最終部署的27個模型,從行業的角度去選擇最終利用哪個模型。
最終,團隊的復賽得分是0.43,如果換算成營業收入的誤差,在7%以內。
從不同公告找到共性知識結構,做直接的實體全量標注
賽題二是上市公司公告重要信息抽取。
本賽題要求對“股東增減持”、“重大合同”和“定向增發”3 個類型的公司公告進行信息抽取,實際上是對公司關鍵事件進行結構化提取。
GOGOGO團隊獲得本賽題第一名。他們首先是對HTML結構的提取,包括一些數據清理和轉換、表格識別等。
FDDC大賽上市公司公告信息抽取賽題第一名GOGOGO團隊
在算法中,團隊運用了反向標注,然后建立一個NER的模型預測實體。GOGOGO的標注不同之處在于,他們做了直接的實體的全量標注。因為現有的很多通用的實體識別,是識別出一個公司名稱或者是不是數值,團隊直接把它的類型給定義清楚。
實體標注技巧是模型里面比較重要的地方之一,另一方面,團隊還用到奧卡姆剃刀原則。
奧卡姆剃刀原則主要表現在人傾向于用一個簡單的方法表現一個內容,會用簡單的方法不會用復雜的方法。比如,有很多合同里面沒有乙方的表示,默認發公告的一方就是乙方。
模型驗證策略方面,團隊在研究這個問題的時候,發現召回率是很重要的,信息一旦漏掉了是撈不回來的,因此可以通過人工的方法提高它。第二是模型效率的問題,因為用到很多抽象的方法,很多情況下并沒有通篇讀,所以速度非常高,基本上控制在秒級。整個過程中大部分時間還是在實體識別里面。
10支團隊瓜分近百萬獎金,AI再度深入投資實戰
FDDC大賽是全球首場專注金融領域、深入投資實戰的技術大賽,歷時3個多月,4231支隊伍經過線上初賽和復賽,共有10支隊伍進入決賽,于8月29日在北京進行現場答辯,8月30日,兩道賽題的前三名共6個團隊參加了終極對決。
本次大賽特設84萬獎池,冠軍更是能獲得高達25萬的豐厚獎金。
這次比賽結果是:
賽題一(上市公司營收預測)
第一名:Alassea lome團隊:吳云、萬珊紅、洪成晨、潘航、劉帥
第二名:Quant_duet團隊:林漢軒、邱爽
第三名:智能金融團隊:汪志文
大賽評委之一,香港科技大學副教授、惠理投資中心副主任尤海峰點評:
智能金融團隊根據財務報表相互關聯的特點,創造性的把GPDT和DNN兩種算法結合起來,先用GPDT的算法自動的構造組合特征,在此基礎上結合DNN深度學習的方法進行預測,取得了很好的效果。
FDDC大賽上市公司營收預測賽題第三名智能金融團隊
Quant duet團隊首先把財務數據進行了拆分,把歷史的營收和其他的財務數據給分割出來,剔除了歷史營收的財務數據,構建了多因子的預測模型,然后又把單獨拿出來的歷史營收數據和市場數據相結合,用一個全連接網絡深度學習的模型做預測,最后把兩個預測模型給整合起來。
FDDC大賽上市公司營收預測賽題第二名Quant duet團隊
這種數據拆分其實是提高了兩個模型的獨立性,從而在整合的時候、融合的時候能夠達到分散錯誤的效果。
Alassea Lome團隊展現了機器學習算法和領域知識很好結合起來的能力。首先他們對數據做了很好的理解、很好的處理和去噪音各種各樣的處理,然后根據他們對不同類型的公司理解,在特征選擇上和算法選擇上都進行了個性化的處理,從而達到很好的預測效果。
賽題二(上市公司公告信息抽取)
第一名:GOGOGO團隊:黃澤熾
第二名:Heisenberg團隊:馮霽、李永剛、蘇洋洋
第三名:Miyabi團隊:李灝舟、王奪、叢冠男、胡一川
最具創意極客獎:東風又綠江南岸團隊(林建生、宋云生、宮保偉、林剛),智能ABC團隊(周武潔、郭炫志);
最具潛力極客獎:KingofWind團隊(李立),ASD123團隊(肖艷清、楊艦);
通聯數據CEO王政點評上市公司公告信息抽取賽題復賽前三團隊:
Miyabi團隊用表格和分類的方法來抽取,能夠快速抽取結果;分類的方法能判斷哪些可以抽取。
FDDC大賽上市公司公告信息抽取賽題第三名Miyabi團隊
Heisenberg團隊有兩個亮點:1、有實用價值的系統架構,能很快用到工業界。2、在實體識別的方法比傳統的有很大提升。
FDDC大賽上市公司公告信息抽取賽題第二名Heisenberg團隊
GOGOGO團隊把不同公告的問題找到了一些共性的知識結構,能快速把復雜問題降維。另外,通過章節的識別提升效率。
王政表示,通過這次FDDC大賽,AI在金融領域的應用得到了新的發展,但是以后問題會越來越難、越來越多,期待更多算法專家加入金融行業,推動金融科技的發展。
-
數據
+關注
關注
8文章
7246瀏覽量
91239 -
人工智能
+關注
關注
1804文章
48805瀏覽量
247141 -
分類器
+關注
關注
0文章
153瀏覽量
13419
原文標題:全球首屆AI金融實戰技術大賽冠軍方案分享,三個月拿走50萬
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
DP1332E資產監控管理方案
AI將如何改變自動駕駛?

FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預測......
AI技術如何助力企業數據資產管理
中設智控全面接入DeepSeek加速AI+設備資產管理全場景深度融合

評論