背景介紹
本文是基于我們之前的 RPN(Reconciled Polynomial Network)研究的后續(xù)工作。在此前的研究中,我們提出了 RPN 這一通用模型架構(gòu),其包含三個(gè)組件函數(shù):數(shù)據(jù)擴(kuò)展函數(shù)、參數(shù)調(diào)和函數(shù)和剩余函數(shù)。
我們先前的研究表明,RPN 在構(gòu)建不同復(fù)雜性、容量和完整性水平的模型方面具有很強(qiáng)的通用性,同時(shí)可以作為統(tǒng)一多種基礎(chǔ)模型(包括 PGM、核 SVM、MLP 和 KAN)的框架。
然而,先前的 RPN 模型基于以下假設(shè):訓(xùn)練批次中的數(shù)據(jù)實(shí)例是獨(dú)立同分布的。此外,在每個(gè)數(shù)據(jù)實(shí)例內(nèi)部,RPN 還假定所涉及的數(shù)據(jù)特征彼此獨(dú)立,并在擴(kuò)展函數(shù)中分別處理這些數(shù)據(jù)特征。
不過(guò),現(xiàn)實(shí)數(shù)據(jù)往往存在比較強(qiáng)的相互依賴關(guān)系,這種依賴關(guān)系既存在于樣本之間,也存在樣本內(nèi)部各個(gè)數(shù)據(jù)特征之間。
如上圖中 (a)-(d) 所示, 對(duì)于圖像、語(yǔ)言、時(shí)間序列和圖等復(fù)雜且具有相互依賴的數(shù)據(jù),這使得先前 RPN 模型的獨(dú)立假設(shè)不成立。如果像先前的 RPN 模型那樣忽略這些數(shù)據(jù)的相互依賴性,學(xué)習(xí)性能將顯著下降。
RPN 2 模型結(jié)構(gòu)
為了解決上面提到的問(wèn)題,在本文中,我們重新設(shè)計(jì)了 RPN 架構(gòu),提出了新的RPN 2(即Reconciled Polynomial Network 2.0)模型。如上圖中所示,RPN 2 引入了一個(gè)全新的組件——數(shù)據(jù)依賴函數(shù),用于顯式建模數(shù)據(jù)實(shí)例和數(shù)據(jù)特征之間的多種依賴關(guān)系。
這里需要解釋一下,雖然我們?cè)诒疚闹袑⒃摻M件稱(chēng)為“依賴函數(shù)(interdependence function)”,但實(shí)際上,該函數(shù)捕獲了輸入數(shù)據(jù)中的多種關(guān)系,包括結(jié)構(gòu)性依賴、邏輯因果關(guān)系、統(tǒng)計(jì)相關(guān)性以及數(shù)值相似性或差異性等。
在模型架構(gòu)方面,如上圖所示,RPN 2由四個(gè)組成函數(shù)構(gòu)成:數(shù)據(jù)擴(kuò)展函數(shù)(data expansion function)、數(shù)據(jù)依賴函數(shù)(data interdependence function)、參數(shù)調(diào)和函數(shù)(parameter reconciliation function)、和余項(xiàng)函數(shù)(remainder function)。數(shù)據(jù)擴(kuò)展函數(shù):根據(jù)數(shù)據(jù)擴(kuò)展函數(shù)的定義,RPN 2 將數(shù)據(jù)向量從輸入空間投射到中間隱層(更高維度)空間,投射后的數(shù)據(jù)將由新空間中的新的基向量表示。數(shù)據(jù)依賴函數(shù):根據(jù)數(shù)據(jù)和底層模態(tài)結(jié)構(gòu)信息,RPN 2 將數(shù)據(jù)投射到依賴函數(shù)空間,投射后的數(shù)據(jù)分布能夠有效地獲取數(shù)據(jù)樣本和特征之間的相互依賴關(guān)系。參數(shù)調(diào)和函數(shù):為了應(yīng)對(duì)數(shù)據(jù)擴(kuò)展帶來(lái)的“維度災(zāi)難”問(wèn)題,RPN 2 中的參數(shù)調(diào)和函數(shù)將一組減少的參數(shù)合成為一個(gè)高階參數(shù)矩陣。這些擴(kuò)展的數(shù)據(jù)向量通過(guò)與這些生成的調(diào)和參數(shù)的內(nèi)積進(jìn)行多項(xiàng)式集成,從而將這些擴(kuò)展的數(shù)據(jù)向量投射回所需的低維輸出空間。余項(xiàng)函數(shù):此外,余數(shù)函數(shù)為 RPN 2 提供了額外的補(bǔ)充信息,以進(jìn)一步減少潛在的近似誤差。
RPN 2 深度和廣度的模型結(jié)構(gòu)
RPN 2 提供了靈活的模型設(shè)計(jì)和結(jié)構(gòu),并且允許用戶搭建不同深度和廣度的模型結(jié)構(gòu)。
上圖展示了 RPN 2 的多層(K層)架構(gòu),每一層包含多個(gè)頭部(multi-head)用于函數(shù)學(xué)習(xí),這些頭部的輸出將被融合在一起。右側(cè)子圖展示了 RPN 2 頭部的詳細(xì)架構(gòu),包括數(shù)據(jù)變換函數(shù)、多通道參數(shù)調(diào)和函數(shù)、余項(xiàng)函數(shù)及其內(nèi)部操作。
屬性和實(shí)例的相互依賴函數(shù)會(huì)計(jì)算相互依賴矩陣,該矩陣將應(yīng)用于輸入數(shù)據(jù)批次,位置可以是在數(shù)據(jù)變換函數(shù)之前或之后。虛線框內(nèi)黃色圓角矩形表示可選的數(shù)據(jù)處理函數(shù)(例如激活函數(shù)和歸一化函數(shù)),這些函數(shù)可作用于輸入、擴(kuò)展以及輸出數(shù)據(jù)。
多模態(tài)數(shù)據(jù)底層結(jié)構(gòu)和依賴函數(shù)
本文還專(zhuān)門(mén)分析了幾種常見(jiàn)數(shù)據(jù)的底層模態(tài)結(jié)構(gòu),包括圖像、點(diǎn)云、語(yǔ)言、時(shí)序、和各類(lèi)圖結(jié)構(gòu)數(shù)據(jù)。如下圖所示:
grid:圖像和點(diǎn)云表示為網(wǎng)格結(jié)構(gòu)數(shù)據(jù),其中節(jié)點(diǎn)表示像素和體素,連邊表示空間位置關(guān)系;
chain:語(yǔ)言和時(shí)間序列數(shù)據(jù)表示為鏈?zhǔn)浇Y(jié)構(gòu)數(shù)據(jù),其中節(jié)點(diǎn)表示詞元和數(shù)值,連邊表示順序關(guān)系;
graph:分子化合物和在線社交網(wǎng)絡(luò)表示為圖結(jié)構(gòu)數(shù)據(jù),其中節(jié)點(diǎn)表示原子和用戶,連邊表示化學(xué)鍵和社交連接。
4.1 圖像和點(diǎn)云數(shù)據(jù)幾何依賴函數(shù)
對(duì)于圖像和點(diǎn)云,每個(gè) pixel (或者 voxel)之間的依賴關(guān)系往往存在于圖像和點(diǎn)云數(shù)據(jù)的局部。換而言之,我們可以從輸入的圖像和點(diǎn)云數(shù)據(jù)中劃分出局部的 patch 結(jié)構(gòu),用來(lái)描述 pixel 和 voxel 之間的依賴范圍。
在傳統(tǒng)模型中,這種 patch 的形狀往往需要認(rèn)為定義,其形狀可以是cuboid shape,cylinder shape,sphere shape。而從 grid 中定義 pixel (或者 voxel)依賴范圍的過(guò)程可以表示為 patch packing 這一經(jīng)典幾何學(xué)問(wèn)題。
取決于 patch 的形狀,本文提出了多中 packing 的策略用來(lái)定義依賴函數(shù),以平衡獲取輸入數(shù)據(jù)信息的完整度和避免數(shù)據(jù)冗余。
4.2 語(yǔ)言和時(shí)序數(shù)據(jù)拓?fù)湟蕾嚭瘮?shù)
除了基于 grid 的幾何依賴函數(shù)之外,本文還介紹了基于 chain 和 graph 的拓?fù)湟蕾嚭瘮?shù)。鏈?zhǔn)浇Y(jié)構(gòu)依賴函數(shù)和多跳鏈?zhǔn)揭蕾嚭瘮?shù)主要用于建模數(shù)據(jù)中的順序依賴關(guān)系,這種關(guān)系廣泛存在于自然語(yǔ)言、基因序列、音頻記錄和股票價(jià)格等數(shù)據(jù)中。
基于序列數(shù)據(jù),本文定義了多種基于 chain 結(jié)構(gòu)的拓?fù)?single-hop 和 multi-hop 的依賴函數(shù)。其中 single-hop chain 結(jié)構(gòu)的拓?fù)湟蕾嚭瘮?shù)分為單向和雙向兩種。如下圖所示,單向依賴強(qiáng)調(diào)元素僅依賴于前一個(gè),而雙向依賴則考慮元素同時(shí)依賴于前后鄰居,從而捕捉更全面的上下文信息。
為了高效建模長(zhǎng)鏈數(shù)據(jù)中的多跳依賴關(guān)系,multi-hop chain 結(jié)構(gòu)的拓?fù)湟蕾嚭瘮?shù)引入了跳數(shù)(hop)參數(shù),直接描述鏈中某一元素與多跳范圍內(nèi)其他元素的信息交互。同時(shí),通過(guò)累積多跳函數(shù)聚合多個(gè)跳數(shù)的信息,進(jìn)一步擴(kuò)展了特征捕獲范圍。
4.3 圖結(jié)構(gòu)數(shù)據(jù)拓?fù)湟蕾嚭瘮?shù)
不僅如此,如下圖所示,本文還提出了基于 graph 結(jié)構(gòu)的拓?fù)湟蕾嚭瘮?shù)。圖結(jié)構(gòu)依賴函數(shù)和基于 PageRank 的圖結(jié)構(gòu)依賴函數(shù)旨在建模復(fù)雜數(shù)據(jù)之間的廣泛依賴關(guān)系,特別是以圖為基礎(chǔ)的數(shù)據(jù),如社交網(wǎng)絡(luò)、基因互動(dòng)網(wǎng)絡(luò)等。
在圖結(jié)構(gòu)依賴函數(shù)中,數(shù)據(jù)的依賴關(guān)系被表示為一個(gè)圖 G=(V,E),其中節(jié)點(diǎn)表示屬性或數(shù)據(jù)實(shí)例,邊表示它們之間的依賴關(guān)系,對(duì)應(yīng)的依賴矩陣 A 則是圖的鄰接矩陣。基于該圖結(jié)構(gòu),函數(shù)通過(guò)矩陣運(yùn)算建模節(jié)點(diǎn)之間的多跳依賴關(guān)系,并引入累積多跳函數(shù)以整合多層次的信息交互。
進(jìn)一步地,基于 PageRank 的圖依賴函數(shù)利用圖的隨機(jī)游走思想,通過(guò)收斂矩陣高效地建模全局的長(zhǎng)距離依賴關(guān)系,并支持多種矩陣歸一化策略以增強(qiáng)計(jì)算的穩(wěn)定性和靈活性。
RPN 2 依賴函數(shù)列表
除了上述提到的依賴函數(shù)之外,本文還提出了多中依賴函數(shù)用來(lái)建模多種類(lèi)型數(shù)據(jù)之間的依賴關(guān)系。通過(guò)有效地使用這些依賴函數(shù)和其他函數(shù),我們可以構(gòu)建更加有效的模型架構(gòu),使 RPN 2 能夠應(yīng)對(duì)廣泛的學(xué)習(xí)挑戰(zhàn)。
在本文中,我們總共提出了 9 大類(lèi),50 多種的數(shù)據(jù)依賴函數(shù),部分依賴函數(shù)的表示和基本信息都總結(jié)在了上面的列表中。
深度學(xué)習(xí)模型的統(tǒng)一表示:CNN, RNN, GNN 和 Transformer
RPN 實(shí)現(xiàn)了豐富的功能函數(shù),具體列表如上圖所示。通過(guò)組合使用上述功能函數(shù),RPN 2 不僅可以構(gòu)建功能強(qiáng)大的模型結(jié)構(gòu),并且可以統(tǒng)一現(xiàn)有基礎(chǔ)模型的表示,包括 CNN,RNN,GNN 和 Transformer 模型。
實(shí)驗(yàn)驗(yàn)證
為了驗(yàn)證提出的 RPN 2 模型的有效性,本文通過(guò)大量的實(shí)驗(yàn)結(jié)果和分析,證明了 RPN 2 在多種 Function Learning Task 上的有效性。
在本文中,具體的實(shí)驗(yàn)任務(wù)包括:離散圖片和文本分類(lèi),時(shí)序數(shù)據(jù)預(yù)測(cè),和圖結(jié)構(gòu)數(shù)據(jù)學(xué)習(xí)等。7.1 離散圖片和文本分類(lèi)在本文中,我們?cè)陔x散圖片和文本數(shù)據(jù)集上測(cè)試了 RPN 2 的實(shí)驗(yàn)效果,包括:
MNIST 圖片數(shù)據(jù)集
CIFAR10 圖片數(shù)據(jù)集
IMDB 文本數(shù)據(jù)集
SST2 文本數(shù)據(jù)集
AGNews 文本數(shù)據(jù)集
我們不僅跟先前的 RPN 1 模型進(jìn)行了對(duì)比,也和傳統(tǒng)的 MLP 和 CNN/RNN 模型進(jìn)行了對(duì)比,具體結(jié)果如下表所示:
Note: 本文實(shí)驗(yàn)所使用的數(shù)據(jù)集,都沒(méi)有使用基于 flipping,rotation 等技術(shù)進(jìn)行數(shù)據(jù)增強(qiáng)。上表展示了各個(gè)方法在多個(gè)數(shù)據(jù)集上分類(lèi)的 Accuracy score。
7.2 圖片數(shù)據(jù)依賴擴(kuò)展
對(duì)于圖片數(shù)據(jù),RPN 2 使用了基于 cylinder patch shape 的依賴函數(shù)。下圖也展示了部分圖片基于 RPN 2 所學(xué)得的數(shù)據(jù)表示,其中圖片中的每個(gè) pixel 都被擴(kuò)展成了一個(gè) cylinder patch shape,每個(gè) cylinder patch 包含了每個(gè) pixel 周?chē)挠行У?context 信息。
7.3 時(shí)序數(shù)據(jù)預(yù)測(cè)
RPN 2 也可以有效地?cái)M合時(shí)序數(shù)據(jù),本文使用了四個(gè)時(shí)序數(shù)據(jù)集來(lái)驗(yàn)證 RPN 2 在時(shí)序數(shù)據(jù)擬合和預(yù)測(cè)的有效性,包括:
Stock market dataset
ETF market dataset
LA traffic record
Bay traffic record
如下表所示,通過(guò)使用 chain 結(jié)構(gòu)的依賴函數(shù),RPN 2 可以有效的獲取時(shí)序數(shù)據(jù)之間的依賴關(guān)系,并且在各個(gè)數(shù)據(jù)集上都獲得有效的學(xué)習(xí)結(jié)果。
Note: 上表中的結(jié)果是各個(gè)方法在幾個(gè)時(shí)序數(shù)據(jù)集上預(yù)測(cè)結(jié)果的 MSE。
圖結(jié)構(gòu)數(shù)據(jù)學(xué)習(xí)
為了驗(yàn)證 RPN 2 在圖結(jié)構(gòu)數(shù)據(jù)上的有效性,本文也提供了各個(gè)方法在 graph 結(jié)構(gòu)數(shù)據(jù)上的學(xué)習(xí)結(jié)果,包括:
Cora graph
Citeseer graph
Pubmed graph
如下表所示,基于 graph 依賴函數(shù)和復(fù)合依賴函數(shù)(包括 graph 和 bilinear 依賴函數(shù)),RPN 2 在多個(gè) graph 數(shù)據(jù)集上都可以獲得比 GCN 都優(yōu)的節(jié)點(diǎn)分類(lèi)的結(jié)果。
Note: 上表中的結(jié)果是各個(gè)方法在幾個(gè) graph 數(shù)據(jù)集上 node 分類(lèi)結(jié)果的 Accuracy。
于RPN 2的模型泛化誤差分析
除了實(shí)驗(yàn)驗(yàn)證之外, 本文還提供了基于 RPN 2 的模型泛化誤差的理論分析,其分析結(jié)果對(duì)目前主流的深度模型(例如 CNN, RNN, GNN 和 Transformer)都適用。
本文的模型泛化誤差是基于給定的數(shù)據(jù)集 D 來(lái)進(jìn)行分析,其中 D 的一部分可以作為訓(xùn)練集用來(lái)進(jìn)行模型訓(xùn)練,我們可以定義模型產(chǎn)生的誤差項(xiàng)如下圖所示:
本文中,模型泛化誤差是指 ,即模型在未見(jiàn)到的數(shù)據(jù)樣本上所產(chǎn)生的誤差和在訓(xùn)練數(shù)據(jù)樣本上產(chǎn)生的誤差的差別:
9.1 基于VC-Dimension泛化誤差分析基于 RPN 2 的模型結(jié)構(gòu),我們定義了模型的 VC-Dimension 如下圖所示:
根據(jù)所獲得的 VC-Dimension 我們定義了 RPN 2 模型的泛化誤差如下圖所示:
9.2 基于Rademacher Complexity泛化誤差分析
除了 VC-dimension 之外,我們還基于 Rademacher Complexity 理論分析了模型的泛化誤差。相比 VC-dimension,Rademacher Complexity 不僅僅考慮了 RPN 2 模型結(jié)構(gòu),還考慮了輸入數(shù)據(jù)對(duì)泛化誤差的影響。
基于提供的 RPN 2 模型,我們定義了模型 Rademacher Complexity 如下圖所示:
根據(jù)定義的 Rademacher Complexity,我們進(jìn)一步分析了 RPN 2 泛化誤差如下圖所示:
上述模型泛化誤差分析不僅僅可以從理論上解釋現(xiàn)有模型表現(xiàn)的區(qū)別,也為將來(lái)模型的設(shè)計(jì)提供了一下啟示,特別是針對(duì)依賴函數(shù)的設(shè)計(jì)。
RPN 2討論:優(yōu)點(diǎn),局限性,以及后續(xù)工作10.1 RPN 2優(yōu)點(diǎn)
本文通過(guò)引入建模屬性和實(shí)例間關(guān)系的數(shù)據(jù)依賴函數(shù),對(duì) RPN 2 模型架構(gòu)進(jìn)行了重新設(shè)計(jì)?;趯?shí)驗(yàn)結(jié)果和理論分析,所提出的依賴函數(shù)顯著提升了 RPN 2 模型在處理復(fù)雜依賴數(shù)據(jù)時(shí)的學(xué)習(xí)能力,具體貢獻(xiàn)包括以下三方面:
理論貢獻(xiàn):與假設(shè)數(shù)據(jù)獨(dú)立同分布的舊版模型不同,新設(shè)計(jì)的 RPN 2 模型通過(guò)一組基于輸入數(shù)據(jù)批次的依賴函數(shù),能夠有效捕捉屬性與實(shí)例之間的依賴關(guān)系,從而大幅擴(kuò)展模型的建模能力。
此外,本文提供的理論分析(基于 VC 維和 Rademacher 復(fù)雜度)展示了如何定義最優(yōu)依賴函數(shù)以減少泛化誤差。這些依賴函數(shù)還從生物神經(jīng)科學(xué)角度模擬了神經(jīng)系統(tǒng)的某些補(bǔ)償功能,為功能學(xué)習(xí)任務(wù)提供新的啟發(fā)。
-
函數(shù)
+關(guān)注
關(guān)注
3文章
4377瀏覽量
64545 -
模型
+關(guān)注
關(guān)注
1文章
3504瀏覽量
50197
原文標(biāo)題:大一統(tǒng)2.0!CNN, RNN, GNN和Transformer模型的統(tǒng)一表示和泛化誤差理論分析
文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
transformer專(zhuān)用ASIC芯片Sohu說(shuō)明

評(píng)論