好看的小说完本推荐,好看的言情小说,梦入神机

由中國人工智能學會主辦，廣州易間網絡科技有限公司承辦的2018第八屆中國智能產業高峰論壇11 月17-18日在成都完美收官，論壇在兩天的會議里帶來了多場精彩報告。

此次小編為大家整理的是來自北京頂象技術有限公司合伙人、首席科學家施亮主題為《深度畫像的反欺詐應用》的精彩演講。

施亮

北京頂象技術有限公司合伙人、首席科學家

以下內容根據速記進行整理

經過施亮本人校對

李康老師的演講主要是針對人工智能使用框架本身的攻擊，就是對人工智能自身的一個攻擊。我在很多場合也聽過李老師的演講，但是今天聽了之后心里還是有點發毛，其實我們是運用人工智能的技術來對抗黑產，如果碰到李老師這種針對AI工具自身的攻擊，我覺得這樣的攻擊還是特別難防的。今天給大家帶來的分享是想講一下我們怎么使用人工智能技術去應對金融方面的欺詐場景。

首先介紹傳統的用戶畫像技術，包括欺詐用戶和正常用戶的特征、畫像的區別，以及如何通過機器學習的技術來分辨。傳統的機器學習技術在這個領域應用也比較廣泛，但是它存在一些缺點。第二個部分介紹關聯網絡圖算法。第三部分是由于2017年到今年年初有一個深度學習運用于圖算法的爆發期，所以給大家介紹一下深度學習圖算法的技術，我們叫做深度畫像。最后舉幾個實際工作中碰到的案例。

1. 傳統的用戶畫像技術

傳統的用戶畫像技術目前被廣泛應用于金融領域。如圖所示，左面主要是對用戶的特征和屬性的描述，例如收入、年齡、家庭的情況，這是簡單的屬性標簽。右邊是用戶的行為，可以通過他的信用報告、貸款和還款的報告，以及轉帳交易的行為，通過這些我們可以構造出用戶的行為畫像。

結合用戶屬性標簽和行為畫像，這就是傳統畫像主要基于的數據點，它是有些優勢的。這種數據容易制定一些策略，從業務的角度理解出發，容易制定一些規則，也比較清晰。但是它有一個弱點，就是泛化能力比較弱。采用了一些機器學習的算法后，泛化能力得到了一定程度的加強。但是它沒有考慮到用戶之間的關系。傳統的畫像是在考慮用戶單點的行為，在真正的行業中發現，用戶之間會存在交互和關聯關系。

2. 關聯網絡圖算法

關聯網絡的傳統算法分析用戶之間的關聯，比較早的嘗試是對網絡結構做一些分析，這種方法最早幾十年前就有了，對圖的分析，我給大家展示了兩張圖（見圖1），最上面兩張圖中是對網絡結構的展示，通過分析網絡里是不是有特殊的結構等，這是比較早期的統計分析。在10年前此研究領域進入到半監督和無監督學習，當時這個研究方向是比較火爆的。中間兩張圖左圖是半監督學習的一個例子。所謂半監督就是我們沒有知道全部的樣本，通過部分的樣本學習出模型。這個圖中開始只知道兩個點，一個紅色、一個藍色，通過一些方法把信息根據圖的結構向其他點進行傳遞，最后在這個圖上可以對其他點也進行分類，這是一個半監督學習的典型例子。中間兩張圖右圖是社區發現的一個例子，通過一些半監督學習最后可以做成這樣一個個社區。

大約在5年前開始流行圖嵌入學習的研究。圖嵌入表示，一般流行的做法是把圖中的點用向量進行表征，而且這個轉換要符合和保留圖的連接特征。在圖上相臨近的點，經過向量轉化后，在向量的空間也是接近的，它們之間也有一定關系。經過向量的表征后可以做大量的算法，比如邊的預測（link predic tion），或者是分類、聚類的算法。在最下面這個圖例中，我們用了一個圖像的表征，是二維圖像的表征，做了一個可視化的展示。可以看到圖中接近的這些點，它們在二維空間中也是比較接近的。

圖1

在機器學習算法進入深度學習的時代，用戶有兩個關切，一個是現在的關聯網絡也好，或者是關聯網絡支撐的反欺詐也好，是不是也能夠沿用深度學習的技術，包括交互式、可視化的展示。前面李老師也講了一些例子，我剛才講傳統畫像技術里的特征是非常敏感的，如果想跨企業使用這些模型，會受到很大限制，因為你的模型特征是基于用戶的很明顯特征，比如收入狀況、年齡狀況等，對于企業之間的隔離，像做遷移學習都會受很大限制。基于這些限制，我們考慮引入深度學習技術。前面的例子是基于比較淺層神經網絡的技術。圖2列出的是目前比較流行的一些技術。現在的方法出得比較多，特別是像NIPS、AAAI上這類的文章比較多。最上面的圖是根據它的拓撲關系和節點，用一個神經網絡對每層進行表征，這是比較早的方法。中間的圖，這個點其實是去看它的一度的鄰居和兩度的鄰居，把一度的鄰居和兩度的鄰居用深度學習核函數來表征，然后再做疊加。最下面這個圖事一種叫GCN的算法，這是最近效果比較好的一個網絡；也就是對每個點，通過一定方法，在每個點都用神經網絡去模擬，然后在每層疊加形成一個深度網絡。這個網絡的好處就是它不僅對網絡的連接關系進行embedding，也同時對節點的屬性進行了embedding，這樣出來的embedding結果會更加精確。

所有的建模都是要有數據支撐的，我們做這個項目也不能做無米之炊，首要的問題是構建一個靠譜的網絡，圖3是我們的一個輔助技術。比如這個網絡是通過一個同設備，我們叫做同設備指紋來界定，黑產對抗時，會對手機的APP進行攻擊，會模擬這個APP產生一些數據，那么我們采集的APP數據就不靠譜，這時采用什么樣的機器學習方法都沒有用。傳統對APP的保護，可以說是加固或者是代碼的混淆，比較容易破解，破解快可能就是1小時。我們做了一個虛擬源碼保護的技術，在一個虛擬層做的技術，其被破解的難度比較大，可以做到一機一密，而且在非常短的時間內做到密鑰更換。

圖3

這個端數據保護技術是支撐上面這一塊網絡構建（見圖3），我們想要的是真實手機數據，這方面我們也在跟國內頂尖的廠商進行合作。因為手機上的內容比大家想象的要多得多，除了屏幕分辨率、CPU型號、APP的版本、操作系統等之外，還有一些其他東西。現在手機基本有陀螺儀、GPS，可能還有一些海拔壓力計等，這些信息采集后我們首先會做同人的檢測，包括中間會有一些力度、仰角、左右手、操作間隔等，目的是什么？就是判斷你的手機是不是被篡改了，或者是不是模擬設備而不是真人在使用。另外一個點就是來看設備和設備之間的關系，也許從表面上看這兩個設備不一樣，其實我們通過模型來分析有可能是同一個模擬器產生的；或者是有一個網絡在中間，可以進行網絡連接的。圖3是我們用的一些具體技術。

3. 案例

首先是傳統風控的場景，這個案例是一個比較傳統的一家銀行信用卡收單的場景（見圖4），這邊是信用卡交易的整個流程，一個復雜的系統一定容易受到攻擊。這個交易過程是非常復雜的，一張信用卡收單過程涉及5個單位——持卡人、發卡行、收單行、商戶和清算中心，任何一個環節通訊的不協調，或者中間的一個漏洞都會給黑產造成可乘之機。比如一張卡，由讀卡器一刷，然后做一個偽卡，這是卡的風險。清算中心，這里也是有風險，比如內部的內盜，或者是清算上的數據泄露風險。在商戶和收單行之間，黑產也會做一些攻擊，中間黑客可能利用時間差搞一些花樣，在這當中，包括持卡消費的過程有很多攻擊點，我大概列了一下，包括偽卡欺詐等進行的違法犯罪。

圖4

下面給大家介紹一個傳統的風控方案。首先在這個端上要防止貓池。貓池是黑產模擬手機端的一個設備，其有一個很大的面板上插著成百上千的手機卡，黑產攻擊時我們要采用端防護的方法，這里涉及到一個安全SDK的防護和設備指紋的采集。數據服務，信息核驗，黑白名單，你的設備IP是不是在黑名單，然后傳統的畫像策略、風險的評分等。設備指紋黑名單，這是數據上的黑白名單，大家可以簡單理解成名單的服務。下一步就是風控策略，主要是一些規則，比如是不是違反了反洗錢的策略，是通過傳統的統計學習來作出策略，在當前絕大部分的銀行還是一個非常主流的策略。另外，一些大行以及互聯網的銀行已經開始運用機器學習的方法，比如評分卡的模型、反欺詐的分類模型等，它會做傳統的數據處理、特征工程，然后做分類、異常檢測、進行評估監控這樣整個的過程。

在上面案例中，我們最后是用了一個機器學習的模型——GBDT的模型，效果也不錯。它和前面所有的這些，我們叫做全鏈路的風控。機器學習是不可以單獨做風控，這個機器學習是依賴風控鏈路來做的模型。

這里列舉了案例中的優點，可以做實時防護。如GBDT模型上線之后速度比較快；另外在每一個風險點上也可以做及時調整，模型重新的訓練也是可以的，根據不同的突發風險來做調整。其缺點，沒有考慮到樣本之間的關系，忽視了挖掘團伙風險。從欺詐本質來說，欺詐行為很難從一個點完成，因為獲利有限，所以基本都是團伙來完成，這個模型沒有考慮團伙作案。

下面介紹運用關聯網絡技術的交易反欺詐和反洗錢，這也是我們在一家銀行里做的，圖5所示的幾個網絡中，紅色的點是用戶，是兩個藍色和黃色網絡的主要節點，黃色的點是手機號的節點，綠色所示的是設備指紋網絡，通過技術就可以對欺詐和洗錢的網絡模式進行挖掘。

圖5

圖6(a)~(c)是根據傳統的圖算法挖掘出來的圖結果。圖（a）是一個疑似洗錢的網絡，兩個黑色的點表示他們之間有大量的交易，或者是有大量的轉帳。這個行有幾千萬的交易，從這張圖中能夠看出來，挖掘出可疑的子網——一個洗錢的網絡。圖（b）同樣也是，只是形式不一樣。圖（c）是根據手機網絡挖掘出來的異常，中間是一個手機號；這幾個是設備指紋，一個手機號應該是對應一個指紋，我們發現不同的設備指紋對應了同一個手機號，說明它是有問題的。圖（d）是我們應用了深度學習技術，銀行給到我們的樣本，紅色的是我們認為有問題的部分，綠色覺得應該是正常的樣本。通過圖（d）可以看出，中間這部分黑產或者是欺詐的團伙他們的聚集性是很強的，中間還有一些空泡，很異常的點；正常用戶其實是不會和他們太近，所以形成了這些空泡。

圖6

第二個案例（見圖7），它對應的是用戶IP和設備的圖，正常應該是一條直線，這部分和直線有很大的偏離，通過檢測之后發現基本都是異常用戶。下面的兩個圖是我們在做驗證碼攻防時的圖，左邊是個熱力圖，顯示某種行為的出現頻次；右邊圖紅色的是已知好的樣本，藍色是未知的樣本。可以看出，好的樣本在中心都是比較有聚集性的；藍色的散落在周邊的，經過驗證，基本都是異常或者惡意的訪問行為。

圖7

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴