在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了

智能感知與物聯網技術研究所 ? 來源:未知 ? 2023-11-05 20:15 ? 次閱讀
Transformer 在時間序列預測中出現了強大能力,可以描述成對依賴關系和提取序列中的多層次表示。然而,研究人員也質疑過基于 Transformer 的預測器的有效性。這種預測器通常將相同時間戳的多個變量嵌入到不可區分的通道中,并對這些時間 token 進行關注,以捕捉時間依賴性。考慮到時間點之間的數字關系而非語義關系,研究人員發現,可追溯到統計預測器的簡單線性層在性能和效率上都超過了復雜的 Transformer。同時,確保變量的獨立性和利用互信息越來越受到最新研究的重視,這些研究明確地建立了多變量相關性模型,以實現精確預測,但這一目標在不顛覆常見 Transformer 架構的情況下是難以實現的。

考慮到基于 Transformer 的預測器的爭議,研究者們正在思考為什么 Transformer 在時間序列預測中的表現甚至不如線性模型,而在許多其他領域卻發揮著主導作用。

近日,來自清華大學的一篇新論文提出了一個不同的視角 ——Transformer 的性能不是固有的,而是由于將架構不當地應用于時間序列數據造成的。

wKgaomVHiHKAXhhfAAI5XInR6Xc692.png

論文地址:https://arxiv.org/pdf/2310.06625.pdf

基于 Transformer 的預測器的現有結構可能并不適合多變量時間序列預測。如圖 2 左側所示,同一時間步長的點基本上代表了完全不同的物理意義,但測量結果卻不一致,這些點被嵌入到一個 token 中,多變量相關性被抹去。而且,在現實世界中,由于多變量時間點的局部感受野和時間戳不對齊,單個時間步形成的標記很難揭示有益信息。此外,雖然序列變化會受到序列順序的極大影響,但在時間維度上卻沒有適當地采用變體注意力機制。因此,Transformer 在捕捉基本序列表征和描繪多元相關性方面的能力被削弱,限制了其在不同時間序列數據上的能力和泛化能力。

wKgaomVHiHKAB15uAAH88_ygQtg375.png

關于將每個時間步的多變量點嵌入一個(時間)token 的不合理性,研究者從時間序列的反向視角出發,將每個變量的整個時間序列獨立嵌入一個(變量)token,這是擴大局部感受野的 patching 的極端情況。通過倒置,嵌入的 token 聚集了序列的全局表征,可以更加以變量為中心,更好地利用注意力機制進行多變量關聯。同時,前饋網絡可以熟練地學習任意回溯序列編碼的不同變量的泛化表征,并解碼以預測未來序列。

研究者認為 Transformer 對時間序列預測并非無效,而是使用不當。在文中,研究者重新審視了 Transformer 的結構,并提倡將 iTransformer 作為時間序列預測的基本支柱。他們將每個時間序列嵌入為變量 token,采用多變量相關性關注,并使用前饋網絡進行序列編碼。實驗結果表明,本文所提出的 iTransformer 在圖 1 所示的實際預測基準上達到了 SOTA 水準,并出人意料地解決了基于 Transformer 的預測器的痛點。

wKgaomVHiHKAWxwpAArxWFZkvCo108.png

總結來說,本文的貢獻有以下三點:

  • 研究者對 Transformer 的架構進行了反思,發現原生 Transformer 組件在時間序列上的能力尚未得到充分開發。

  • 本文提出的 iTransformer 將獨立時間序列視為 token,通過自注意力捕捉多變量相關性,并利用層歸一化和前饋網絡模塊學習更好的序列全局表示法,用于時間序列預測。

  • 通過實驗,iTransformer 在真實世界的預測基準上達到了 SOTA。研究者分析了反轉模塊和架構選擇,為未來改進基于 Transformer 的預測器指明了方向。

iTransformer

在多變量時間序列預測中,給定歷史觀測:

wKgaomVHiHKAP0uKAAB81pqY4KQ190.png

用 T 個時間步長和 N 個變量,研究者預測未來的 S 個時間步長:wKgaomVHiHKAMQGOAACEZ6ViK7w788.png為方便起見,表示為wKgaomVHiHOALEH_AAAQsWuNyEA373.png為時間步 t 同時記錄的多元變量,wKgaomVHiHOAciTVAAARFyIDK-A548.png為每個變量由 n 索引的整個時間序列。值得注意的是,在現實世界中,由于監視器的系統延遲和松散組織的數據集,wKgaomVHiHOAOijYAAATQOvpcas994.png可能不包含本質上相同時間戳的時間點。

wKgaomVHiHOAOijYAAATQOvpcas994.png的元素可以在物理測量和統計分布中彼此不同,變量wKgaomVHiHOAciTVAAARFyIDK-A548.png通常共享這些數據。

本文所提出架構配備的 Transformer 變體,稱為 iTransformer,基本上沒有對 Transformer 變體提出更具體的要求,只是注意力機制應適用于多元相關性建模。因此,一組有效的注意力機制可以作為插件,降低變量數量增加時關聯的復雜性。

圖 4 中所示的 iTransformer 利用了更簡單的 Transformer 純編碼器架構,包括嵌入、投影和 Transformer 塊。

wKgaomVHiHOAQJssAAKYcX1-p48911.png

實驗及結果

研究者在各種時間序列預測應用中對所提出的 iTransformer 進行了全面評估,驗證了所提出框架的通用性,并進一步深入研究了針對特定時間序列維度反轉 Transformer 組件職責的效果。

研究者在實驗中廣泛納入了 6 個真實世界數據集,包括 Autoformer 使用的 ETT、天氣、電力、交通數據集、LST5 Net 提出的太陽能數據集以及 SCINet 評估的 PEMS 數據集。更多關于數據集的信息,請閱讀原文。

預測結果

如表 1 所示,用紅色表示最優,下劃線表示最優。MSE/MAE 越低,預測結果越準確。本文所提出的 iTransformer 實現了 SOTA 性能。原生 Transformer 組件可以勝任時間建模和多元關聯,所提出的倒排架構可以有效解決現實世界的時間序列預測場景。

wKgaomVHiHOAEEF7AAJOzgAHKgk654.png

iTransformer 通用性

研究者將該框架應用于 Transformer 及其變體來評估 iTransformers,這些變體通常解決了 self-attention 機制的二次復雜性問題,包括 Reformer、Informer、Flowformer 和 FlashAttention。研究者發現了簡單的倒置視角可以提高基于 Transformer 的預測器的性能,從而提高效率、泛化未見變量并更好地利用歷史觀測數據。

表 2 對 Transformers 和相應的 iTransformers 進行了評估。值得注意的是,該框架持續改進了各種 Transformer。總體而言,Transformer 平均提升了 38.9%,Reformer 平均提升了 36.1%,Informer 平均提升了 28.5%,Flowformer 平均提升了 16.8%,Flashformer 平均提升了 32.2%。

此外,由于倒置結構在變量維度上采用了注意力機制,因此引入具有線性復雜性的高效注意力從根本上解決了因 6 個變量而產生的效率問題,這一問題在現實世界的應用中十分普遍,但對于 Channel Independent 來說可能會消耗資源。因此,iTransformer 可廣泛應用于基于 Transformer 的預測器。

wKgaomVHiHOAFbC5AAHAqncruNE962.png

為了驗證假設,研究者將 iTransformer 與另一種泛化策略進行了比較:Channel Independent 強制采用一個共享 Transformer 來學習所有變體的模式。如圖 5 所示, Channel Independent(CI-Transformers)的泛化誤差可能會大幅增加,而 iTransformer 預測誤差的增幅要小得多。

wKgaomVHiHOAJY14AAE5_dwrv4Y389.png

由于注意力和前饋網絡的職責是倒置的,圖 6 中評估了隨著回視長度的增加,Transformers 和 iTransformer 的性能。它驗證了在時間維度上利用 MLP 的合理性,即 Transformers 可以從延長的回視窗口中獲益,從而獲得更精確的預測。

wKgaomVHiHSAWJ15AAGH_S98ZO4587.png

模型分析

為了驗證 Transformer 組件的合理性,研究者進行了詳細的消融實驗,包括替換組件(Replace)和移除組件(w/o)實驗。表 3 列出了實驗結果。

wKgaomVHiHSAYdPOAAFPpEZatPA169.png

更多詳細內容,請參考原文。


原文標題:重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了

文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2927

    文章

    45794

    瀏覽量

    387130

原文標題:重新審視Transformer:倒置更有效,真實世界預測的新SOTA出現了

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    是時候重新審視“小米模式”

    3月29日晚,一輛小米SU7標準版在安徽銅陵高速發生碰撞后爆燃,導致3名女大學生遇難。雷軍在4月1日發博,承諾配合調查,“不會回避”。但在事發72小時后才公開回應,導致家屬質疑其誠意,認為小米汽車溝通滯后(本文發稿時該家屬微博已刪除)。 此后,雷軍進入風口浪尖,小米汽車股價也應聲下跌。對此,輿論場各執一詞,呈現出兩極撕裂: 有人認為,“事故不決找雷軍”不合理,BBA也沒少出過事故,但不會牽扯到它們的CEO; 有人則認為,雷軍
    的頭像 發表于 04-09 17:08 ?246次閱讀
    是時候<b class='flag-5'>重新</b><b class='flag-5'>審視</b>“小米模式”<b class='flag-5'>了</b>

    FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預測......

    ”“大模型圈的大黑馬”“硅谷震驚”“來自中國的學霸級AI”…… 從智能手機到自動駕駛,從數據中心到物聯網,FPGA 正悄然改變著我們的生活。未來,FPGA 又將如何塑造世界?DeepSeek 帶你一起
    發表于 03-03 11:21

    如何使用MATLAB構建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設計初衷是為了解決自然語言處理(Nature
    的頭像 發表于 02-06 10:21 ?3184次閱讀
    如何使用MATLAB構建<b class='flag-5'>Transformer</b>模型

    SOLIDWORKS 2025更有效的協作和數據管理

    在當今快速變化的商業環境中,企業成功的關鍵在于有效的協作和數據管理。作為CAD領域的領軍者,SOLIDWORKS始終致力于為用戶提供優越的三維設計與工程解決方案。隨著SOLIDWORKS 2025的發布,這款旗艦軟件在協作和數據管理方面實現重大突破,為用戶帶來了更加
    的頭像 發表于 01-09 17:04 ?427次閱讀
    SOLIDWORKS 2025<b class='flag-5'>更有效</b>的協作和數據管理

    transformer專用ASIC芯片Sohu說明

    2022年,我們打賭說transformer會統治世界。 我們花了兩年時間打造Sohu,這是世界上第一個用于transformer(ChatGPT中的“T”)的專用芯片。 將
    的頭像 發表于 01-06 09:13 ?924次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說明

    Mamba入局圖像復原,達成新SOTA

    圖像復原又來新突破了!還記得性能超越SwinIR(基于Transformer)的MambaIR嗎?一種基于Mamba的圖像復原基準模型,登上ECCV 2024。最近原作者又開發了新版本
    的頭像 發表于 12-30 18:09 ?649次閱讀
    Mamba入局圖像復原,達成新<b class='flag-5'>SOTA</b>

    19位國際頂尖學者聯袂撰寫《重新審視邊緣人工智能:機遇與挑戰》

    19位國際頂尖學者聯袂撰寫《重新審視邊緣人工智能:機遇與挑戰》
    的頭像 發表于 11-27 01:04 ?782次閱讀
    19位國際頂尖學者聯袂撰寫《<b class='flag-5'>重新</b><b class='flag-5'>審視</b>邊緣人工智能:機遇與挑戰》

    Transformer模型的具體應用

    如果想在 AI 領域引領一輪新浪潮,就需要使用到 Transformer
    的頭像 發表于 11-20 09:28 ?1346次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應用

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
    的頭像 發表于 11-20 09:27 ?825次閱讀
    <b class='flag-5'>Transformer</b>模型能夠做什么

    自動駕駛中一直說的BEV+Transformer到底是個啥?

    感知、理解和預測方面表現得更為強大,徹底終結了2D直視圖+CNN時代。BEV+Transformer通過鳥瞰視角與Transformer模型的結合,顯著提升了自動駕駛
    的頭像 發表于 11-07 11:19 ?1146次閱讀
    自動駕駛中一直說的BEV+<b class='flag-5'>Transformer</b>到底是個啥?

    關于\"OPA615\"的SOTA的跨導大小的疑問求解

    關于OPA615的SOTA部分,看datasheet的page9的figure22,我們可以知道跨導大小大概是35mA/V左右,并且可以知道其Chold輸出一般在5mA以內,但是我從社區里面找到
    發表于 09-13 06:25

    Transformer能代替圖神經網絡嗎

    Transformer作為一種在處理序列數據方面表現出色的深度學習模型,自其提出以來,已經在自然語言處理(NLP)、時間序列分析等領域取得了顯著的成果。然而,關于Transformer是否能完全代替圖神經網絡(GNN)的問題,需要從多個維度進行深入探討。
    的頭像 發表于 07-12 14:07 ?780次閱讀

    Transformer語言模型簡介與實現過程

    在自然語言處理(NLP)領域,Transformer模型以其卓越的性能和廣泛的應用前景,成為了近年來最引人注目的技術之一。Transformer模型由谷歌在2017年提出,并首次應用于神經機器翻譯
    的頭像 發表于 07-10 11:48 ?2771次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,在自然語言處理(NLP)領域取得了巨大的成功,并成為了許多先進模型(如BERT、GPT等)的基礎。本文將深入解讀如何使用PyTorch框架搭建Transformer模型,包括模型的結構、訓練過程、關鍵組件以及實現細節。
    的頭像 發表于 07-02 11:41 ?2371次閱讀

    NB81是否支持OneNet SOTA功能?應該如何激活SOTA

    NB81是否支持OneNet SOTA功能? 可以支持,應該如何激活SOTA
    發表于 06-04 06:14
    主站蜘蛛池模板: 最黄毛片 | 亚州色图欧美色图 | 日本黄页视频 | 欧美日本视频一区 | 77788色淫免费网站视频 | 女人张开腿让男人做爽爽 | 韩国黄色三级视频 | 狠狠88综合久久久久综合网 | 欧美午夜视频一区二区 | 欧美系列在线 | 性色xxx| 色婷婷视频在线观看 | 日本aaaa级片 | 李丽莎尤物福利视频 | 欧美三级免费看 | 色内内免费视频播放 | 欧美一级在线全免费 | 色狠狠色综合久久8狠狠色 色狠狠网 | 国产精品福利在线观看免费不卡 | 狠狠色噜噜狠狠狠狠888奇米 | 视频 在线 | 色噜噜噜噜色 | 深夜偷偷看视频在线观看 | 91成人在线播放 | 国产成人精品三级在线 | 黄色网址视频在线播放 | 天天视频免费入口 | 久青草国产免费观看 | 亚洲一区二区三区在线播放 | 欧美整片第一页 | 亚洲成综合人影院在院播放 | 女18poren69| 日本.www| 黄色福利站 | 国产精品久久久久天天影视 | 思思久99久女女精品 | 久草视频在线免费看 | 在线免费观看视频黄 | 四虎4hu永久在线观看 | 人人插人人爱 | 萌白酱一线天粉嫩喷水在线观看 |