欢乐颂小说结局,盗墓笔记同人小说,欢乐颂小说结局是什么

Transformer 在時間序列預測中出現(xiàn)了強大能力，可以描述成對依賴關系和提取序列中的多層次表示。然而，研究人員也質疑過基于 Transformer 的預測器的有效性。這種預測器通常將相同時間戳的多個變量嵌入到不可區(qū)分的通道中，并對這些時間 token 進行關注，以捕捉時間依賴性。考慮到時間點之間的數(shù)字關系而非語義關系，研究人員發(fā)現(xiàn)，可追溯到統(tǒng)計預測器的簡單線性層在性能和效率上都超過了復雜的 Transformer。同時，確保變量的獨立性和利用互信息越來越受到最新研究的重視，這些研究明確地建立了多變量相關性模型，以實現(xiàn)精確預測，但這一目標在不顛覆常見 Transformer 架構的情況下是難以實現(xiàn)的。

考慮到基于 Transformer 的預測器的爭議，研究者們正在思考為什么 Transformer 在時間序列預測中的表現(xiàn)甚至不如線性模型，而在許多其他領域卻發(fā)揮著主導作用。

近日，來自清華大學的一篇新論文提出了一個不同的視角 ——Transformer 的性能不是固有的，而是由于將架構不當?shù)貞糜跁r間序列數(shù)據(jù)造成的。

論文地址：https://arxiv.org/pdf/2310.06625.pdf

基于 Transformer 的預測器的現(xiàn)有結構可能并不適合多變量時間序列預測。如圖 2 左側所示，同一時間步長的點基本上代表了完全不同的物理意義，但測量結果卻不一致，這些點被嵌入到一個 token 中，多變量相關性被抹去。而且，在現(xiàn)實世界中，由于多變量時間點的局部感受野和時間戳不對齊，單個時間步形成的標記很難揭示有益信息。此外，雖然序列變化會受到序列順序的極大影響，但在時間維度上卻沒有適當?shù)夭捎米凅w注意力機制。因此，Transformer 在捕捉基本序列表征和描繪多元相關性方面的能力被削弱，限制了其在不同時間序列數(shù)據(jù)上的能力和泛化能力。

關于將每個時間步的多變量點嵌入一個（時間）token 的不合理性，研究者從時間序列的反向視角出發(fā)，將每個變量的整個時間序列獨立嵌入一個（變量）token，這是擴大局部感受野的 patching 的極端情況。通過倒置，嵌入的 token 聚集了序列的全局表征，可以更加以變量為中心，更好地利用注意力機制進行多變量關聯(lián)。同時，前饋網絡可以熟練地學習任意回溯序列編碼的不同變量的泛化表征，并解碼以預測未來序列。

研究者認為 Transformer 對時間序列預測并非無效，而是使用不當。在文中，研究者重新審視了 Transformer 的結構，并提倡將 iTransformer 作為時間序列預測的基本支柱。他們將每個時間序列嵌入為變量 token，采用多變量相關性關注，并使用前饋網絡進行序列編碼。實驗結果表明，本文所提出的 iTransformer 在圖 1 所示的實際預測基準上達到了 SOTA 水準，并出人意料地解決了基于 Transformer 的預測器的痛點。

總結來說，本文的貢獻有以下三點：

研究者對 Transformer 的架構進行了反思，發(fā)現(xiàn)原生 Transformer 組件在時間序列上的能力尚未得到充分開發(fā)。
本文提出的 iTransformer 將獨立時間序列視為 token，通過自注意力捕捉多變量相關性，并利用層歸一化和前饋網絡模塊學習更好的序列全局表示法，用于時間序列預測。
通過實驗，iTransformer 在真實世界的預測基準上達到了 SOTA。研究者分析了反轉模塊和架構選擇，為未來改進基于 Transformer 的預測器指明了方向。

iTransformer

在多變量時間序列預測中，給定歷史觀測：

用 T 個時間步長和 N 個變量，研究者預測未來的 S 個時間步長：。為方便起見，表示為為時間步 t 同時記錄的多元變量，為每個變量由 n 索引的整個時間序列。值得注意的是，在現(xiàn)實世界中，由于監(jiān)視器的系統(tǒng)延遲和松散組織的數(shù)據(jù)集，可能不包含本質上相同時間戳的時間點。

的元素可以在物理測量和統(tǒng)計分布中彼此不同，變量通常共享這些數(shù)據(jù)。

本文所提出架構配備的 Transformer 變體，稱為 iTransformer，基本上沒有對 Transformer 變體提出更具體的要求，只是注意力機制應適用于多元相關性建模。因此，一組有效的注意力機制可以作為插件，降低變量數(shù)量增加時關聯(lián)的復雜性。

圖 4 中所示的 iTransformer 利用了更簡單的 Transformer 純編碼器架構，包括嵌入、投影和 Transformer 塊。

實驗及結果

研究者在各種時間序列預測應用中對所提出的 iTransformer 進行了全面評估，驗證了所提出框架的通用性，并進一步深入研究了針對特定時間序列維度反轉 Transformer 組件職責的效果。

研究者在實驗中廣泛納入了 6 個真實世界數(shù)據(jù)集，包括 Autoformer 使用的 ETT、天氣、電力、交通數(shù)據(jù)集、LST5 Net 提出的太陽能數(shù)據(jù)集以及 SCINet 評估的 PEMS 數(shù)據(jù)集。更多關于數(shù)據(jù)集的信息，請閱讀原文。

預測結果

如表 1 所示，用紅色表示最優(yōu)，下劃線表示最優(yōu)。MSE/MAE 越低，預測結果越準確。本文所提出的 iTransformer 實現(xiàn)了 SOTA 性能。原生 Transformer 組件可以勝任時間建模和多元關聯(lián)，所提出的倒排架構可以有效解決現(xiàn)實世界的時間序列預測場景。

iTransformer 通用性

研究者將該框架應用于 Transformer 及其變體來評估 iTransformers，這些變體通常解決了 self-attention 機制的二次復雜性問題，包括 Reformer、Informer、Flowformer 和 FlashAttention。研究者發(fā)現(xiàn)了簡單的倒置視角可以提高基于 Transformer 的預測器的性能，從而提高效率、泛化未見變量并更好地利用歷史觀測數(shù)據(jù)。

表 2 對 Transformers 和相應的 iTransformers 進行了評估。值得注意的是，該框架持續(xù)改進了各種 Transformer。總體而言，Transformer 平均提升了 38.9%，Reformer 平均提升了 36.1%，Informer 平均提升了 28.5%，F(xiàn)lowformer 平均提升了 16.8%，F(xiàn)lashformer 平均提升了 32.2%。

此外，由于倒置結構在變量維度上采用了注意力機制，因此引入具有線性復雜性的高效注意力從根本上解決了因 6 個變量而產生的效率問題，這一問題在現(xiàn)實世界的應用中十分普遍，但對于 Channel Independent 來說可能會消耗資源。因此，iTransformer 可廣泛應用于基于 Transformer 的預測器。

為了驗證假設，研究者將 iTransformer 與另一種泛化策略進行了比較：Channel Independent 強制采用一個共享 Transformer 來學習所有變體的模式。如圖 5 所示， Channel Independent（CI-Transformers）的泛化誤差可能會大幅增加，而 iTransformer 預測誤差的增幅要小得多。