有声,魔天记忘语小说,盗墓笔记第二季

英特爾AVX-512VNNI技術解析

高級矢量擴展指令集(AdvancedVector ExtensionsAVX)是x86架構微處理器中的SIMD指令集。英特爾AVX-512顧名思義寄存器位寬是512b，可以支持16路32b單精度浮點數或64路8b整型數。

英特爾至強可擴展處理器通過英特爾深度學習加速(英特爾DLBoost)進一步提升了AI計算性能。英特爾深度學習加速包含英特爾AVX-512VNNI(VectorNeural Network Instructions)，是對標準英特爾AVX-512指令集的擴展。

如何理解英特爾AVX-512技術，還要從SIMD指令集說起。SIMD是單指令流多數據流操作(SingleInstruction Stream, Multiple Data Stream)的縮寫，相對應的是SISD單指令流單數據流(SingleInstruction Stream, Single Data Stream)。相較于傳統的單指令單數據指令，SIMD指令使得一條指令可以完成多組數據的操作。單指令單數據流和單指令多數據流區別如下圖所示：

英特爾AVX-512VNNI技術解析

英特爾AVX指令集的前世今生

英特爾AVX-512VNNI技術解析

英特爾最早發布的SIMD指令集是MMX指令集：

1996年，英特爾發布了基于新版P55C架構的PentiumMMX系列處理器，其中引入了新的MMX指令集，開始支持SIMD。PentiumMMX系列處理器上新引入的MMX指令集開創了x86處理器支持SIMD操作的先河，該指令集定義了8個64-bit寬度的寄存器，每個寄存器的64-bit容量中可以放入八個8-bit長度的整數或四個16-bit長度整數或兩個32-bit整數，CPU在識別到MMX指令集的新指令時會自動將寄存器中的數據進行分割計算，這樣一來，單個指令就成功操作了多個數據，實現了SIMD。

英特爾AVX-512指令集實際上分成不同的擴展，用來實現不同的操作。具體的擴展如下：

AVX-512 Foundation

AVX-512 Conflict Detection Instructions (CD)

AVX-512 Exponential and Reciprocal Instructions (ER)

AVX-512 Prefetch Instructions (PF)

AVX-512 Vector Length Extensions (VL)

AVX-512 Byte and Word Instructions (BW)

AVX-512 Doubleword and Quadword Instructions (DQ)

AVX-512 Integer Fused Multiply Add (IFMA)

AVX-512 Vector Byte Manipulation Instructions (VBMI)

AVX-512 Vector Neural Network Instructions Word variable precision (4VNNIW)

AVX-512 Fused Multiply Accumulation Packed Single precision (4FMAPS)

VPOPCNTDQ

VPCLMULQDQ

AVX-512 Vector Neural Network Instructions (VNNI)

AVX-512 Galois Field New Instructions (GFNI)

AVX-512 Vector AES instructions (VAES)

AVX-512 Vector Byte Manipulation Instructions 2 (VBMI2)

AVX-512 Bit Algorithms (BITALG)

AVX-512 Bfloat16 Floating-Point Instructions (BF16)

AVX-512 Half-Precision Floating-Point Instructions (FP16)

通過以上這些指令集擴展，讓英特爾至強可擴展處理器家族在音視頻處理、游戲、科學計算、數據加密壓縮以及深度學習等場景中擁有了出色的表現。

英特爾AVX-512VNNI(VectorNeural Network Instructions)

英特爾AVX-512VNNI(VectorNeural NetworkInstructions)是英特爾深度學習加速一項重要的內容，也是對標準英特爾AVX-512指令集的擴展。可以將三條指令合并成一條指令執行，更進一步的發揮新一代英特爾至強可擴展處理器的計算潛能，提升INT8模型的推理性能。目前第2代和第3代英特爾至強可擴展處理器均支持英特爾VNNI。

未使用VNNI的平臺需要vpmaddubsw、vpmaddwd和vpaddd指令才能完成INT8卷積運算中的乘累加：

英特爾AVX-512VNNI技術解析

而擁有VNNI的平臺上則可以使用一條指令vpdpbusd完成INT8卷積操作：

英特爾AVX-512VNNI技術解析

英特爾深度學習加速VNNI加速推薦系統中的矢量召回

下面介紹一個具體的使用場景：英特爾深度學習加速VNNI加速推薦系統中的矢量召回。

眾所周知，推薦系統需要解決的問題是：如何為既定用戶生成一個長度為K的推薦列表，并使該推薦列表盡量(高準確性)、盡快(低延遲)地滿足用戶的興趣和需求?常規的推薦系統包含兩部分：矢量召回(vectorrecall)和重排(ranking)。前者從龐大的推薦池里粗篩出當前用戶最可能感興趣的幾百或幾千條內容，并將結果交由后者的排序模塊進一步排序，得到最終推薦結果。

英特爾AVX-512VNNI技術解析

矢量召回可以轉換成高緯度的矢量相似性搜索問題。HNSW(HierarchicalNavigable Small World)算法是基于圖結構的ANN(ApproximateNearest Neighbor)矢量相似度搜索算法之一，也是速度最快精度最高的算法之一。

英特爾AVX-512VNNI技術解析

矢量原始數據的數據類型常常是FP32。對于很多業務(如圖片檢索)，矢量數據是可以用INT8/INT16表示而且量化誤差對最終搜集結果影響有限。這時可以使用VNNI intrinsic 指令實現矢量INT8/INT16 的內積計算。大量實驗表明QPS性能有較大的提升，而且召回率幾乎不變。QPS提升的原因一方面是 INT8/INT16訪問帶寬比 FP32少很多，另一方面距離計算部分由于使用 VNNI指令得以加速。

當數據集比較大時(如1億到10億數據量級范圍)，傳統的做法是將數據集切片，變成幾個較小的數據集，每個數據集單獨獲取topK，最后再合并。由于增加了多個機器之間的通信，增加延遲的同時降低了QPS。在大數據集上使用HNSW方案的最佳實踐是：盡量不切片，在完整的數據集上建立索引和執行搜索，可獲得最佳性能。當數據集過大，內存空間不夠時，可以考慮使用英特爾傲騰持久內存解決。

Super-FusedBERT技術解析

BERT介紹

BERT(BidirectionalEncoder Representations fromTransformers，基于變換器的雙向編碼器表示技術)是2018年谷歌公司提出的NLP(Naturallanguageprocessing，自然語言處理)學科的新技術。谷歌正在利用BERT來更好地理解用戶搜索語句的語義。2020年的一項文獻調查得出結論：“在一年多一點的時間里，BERT已經成為NLP實驗中無處不在的基線”，算上分析和改進模型的研究出版物超過150篇。

BERT的創新點在于它將雙向Transformer用于語言模型，之前的模型是從左向右輸入一個文本序列，或者將left-to-right和right-to-left的訓練結合起來。實驗的結果表明，雙向訓練的語言模型對語境的理解會比單向的語言模型更深刻，BERT使用了一種新技術叫做MaskedLM(MLM)，在這個技術出現之前是無法進行雙向語言模型訓練的。

英特爾AVX-512技術加速新浪廣告業務

通過使用英特爾AVX-512實現Super-FusedBert優化方案

一、利用Intel MKL高性能數學庫

MKL是Intel發布的高性能數學庫，適用于科學計算，工程和金融領域。經過多年的打磨，MKL已經是x86平臺上性能最好的數學庫之一。借助MKL可以最大限度的發揮出Xeon處理器的硬件性能，幫助加速Bert模型的推理。

英特爾AVX-512VNNI技術解析