Gzip 是什么
Gzip 是一種用于數據壓縮的編碼格式,經常被使用在基于 HTTP 協議的網絡傳輸中。Gzip 功能允許服務器在傳輸數據是對其進行壓縮,從而減小傳輸的數據量,加快頁面加載速度,這對于節省帶寬和提高用戶體驗非常有用。本文將從 Gzip 使用場景、Gzip 原理、Gzip 在 nginx 中的應用以及華為云 API網關的 Gzip 功能實現幾個方面介紹 Gzip。
Gzip 使用場景
Gzip 能夠提升傳輸速度和降低帶寬消耗,因此適合應用 Gzip 的場景有很多。
網頁傳輸:在 web 開發中,使用 Gzip 可以減小文件大小,從而加快頁面加載速度。
移動應用通信:在移動應用中,使用 Gzip 可以降低移動網絡的數據消耗,加快數據傳輸速度,提升用戶體驗。
文件備份和傳輸:在進行文件備份或者文件傳輸時,使用 Gzip 可以減小備份文件的大小,節省存儲空間和傳輸帶寬。
網絡傳輸限制:在網絡帶寬受限的環境下,使用Gzip可以減小數據傳輸量,提升網絡性能。
API 通信:對于RESTfulAPI或其他數據接口的傳輸,使用Gzip可以降低傳輸的數據量,減少對網絡帶寬的占用,提升響應速度。
Gzip 原理
gzip 使用 deflate 算法進行壓縮。其原理主要包括 LZ77 算法以及 Huffman 編碼(哈夫曼編碼)。
LZ77 算法
LZ77 算法是將重復字符串替換為長度距離對來達到壓縮的目的。長度是重復字符串的長度,距離是重復字符串與第一個出現該字符串的距離,下圖是一個簡單的示例:

在 LZ77 算法中,主要運用了基于滑動窗口的字典壓縮算法。首先是滑動窗口:

以上圖為例,一開始,查找區是沒有字符的。滑動窗口從 K 開始移動,依次在查找區嘗試查找當前指向字符及之后字符的最長匹配,直到滑動窗口區不再有字符為止。這里就涉及到另外一個問題了,如何在查找區中快速的找到與滑動窗口中匹配的字符,LZ77 顯然不會采取暴力遍歷查找的方法,通常使用哈希數組來實現字典的快速搜索。在哈希數組中有兩個數組,一個數組用來存放最新重復字符串的哈希地址,一個數組用來解決哈希沖突。具體以下圖為例進行說明:

當第一次掃描 ABC 時,對應數組 1 中 4 號位置為空,因此不用轉化為長度距離對。當第二次掃描到 ABC 時,對應數組 1 中 4 號位置存放的是 1,于是將 4 號位置替換為 6,再將 1 放置在數組 2 中的 6 號位置,此時數組 2 的 6 號位置存放的是 1,對當前字符串后的字符繼續和 1 位置對應字符后的字符繼續進行匹配,記錄最長匹配字符長度。然后在數組 2 中查找 1 號位置,如果為空則結束匹配,最后將匹配到的最長字符替換為長度距離對。
Huffman 編碼
Huffman 編碼的原理是基于哈夫曼樹。哈夫曼樹是一種最優二叉樹,是一種帶權路徑長度最短的二叉樹。
以下是哈夫曼樹的構造過程:
假設有 A、B、C、D、E 五個字母,他們對應出現的次數分別為 5,6,8,12,20

構造哈夫曼樹的基本流程:將 A、B、C、D、E 看作是只有一個結點的樹,其中出現的次數作為他們的權值。將權值和最小的兩個數進行合并稱為一個新樹,權值較小的樹作為左子樹,權值較大的樹作為右子樹,新樹的根結點權值為兩子樹之和,然后將新樹也加入到樹的集合中,重復上述流程知道又有一棵樹為止。
針對哈夫曼樹編碼,左分支為 0,右分支為 1。可得出 A、B、C、D、E 的編碼如下:

從最后的編碼來看,出現次數最多的 E 的編碼長度比出現次數較少的 A 或 B 要少。最終頻率高的字符會使用較短的編碼,頻率低的字符會使用較長的編碼,總體的編碼長度就會變小,從而達到壓縮的結果。
Gzip 在 Nginx 中的應用
Nginx 作為當下很流行的開源網頁服務器和反向代理服務器,原生支持了 Gzip 的功能。但是在 Nginx 中 Gzip 功能默認是不開啟,需要在配置文件中配置相關指令才可以開啟 Gzip 功能。常見的配置項如下:

華為云 API網關的 Gzip 功能
華為云API網關(APIG)為企業和開發者提供的高性能、高可用、高安全的云原生網關服務,融合安全、負載均衡、流量入口治理、微服務流量治理、運維等多項能力,也支持 Gzip 壓縮功能。用戶可以通過一鍵式開關控制 Gzip 功能的開啟。同時 APIG 還開放了壓縮等級,用戶可以通過配置不同的壓縮等級,根據自己的需求對 Gzip 功能進行性能調優。當一個客戶端發送一個 HTTP 請求時,需要包含一個 Accept-Encoding 頭部用來指示客戶端支持的壓縮算法。
APIG 會根據 GZIP 開關來判斷是否進行壓縮。在開關開啟的狀態下,APIG 會將響應內容壓縮,然后將壓縮后的響應發送給客戶端(如果客戶端已經進行 Gzip 壓縮,那么 APIG 將不會進行二次壓縮)。客戶端收到響應后,會根據響應頭部的 Content-Encoding 字段判斷是否經過了壓縮。如果響應被壓縮了,客戶端會進行解壓縮,以獲取原始的內容。
可以參考以下步驟打開 Gzip 開關及設置壓縮等級:
打開華為云 APIG 控制臺,依次進入實例管理-->配置參數,在頁面列表中找到參數 gzip 如下:

如上圖,gzip 功能為開啟狀態,且壓縮等級為 6。
此外,APIG 還提供了 Debug 功能用以調試 Gzip 功能。首先依次打開 API 列表,然后點擊創建 API。

在填寫好 API 詳細信息后,在后端配置選項頁面選擇 Mock 后端,并且增加 header 參數-content-length(參數值需要大于等于 1028,否則 gzip 功能將不生效。)

然后進入 API 的調試界面,在 Headers 中添加參數:Accept-Encoding,對應參數值為 gzip。在響應結果中,如果有 Content-Encoding:gzip出現,即代表 Gzip 功能生效。

Gzip 自首次發布以來,已經成為互聯網上常用的壓縮格式之一。各種高性能的開源代理如 Nginx、Envoy 等都原生支持 Gzip 的功能。在傳輸速度和降低帶寬消耗方面,Gzip 有著十分強大的優勢,希望本文能幫助到想要了解 Gzip 背后原理及其應用的人。
另外,如果你有更多關于華為云產品的疑問,可掃碼添加華為云專家的聯系方式,咨詢相關問題。
審核編輯 黃宇
-
網關
+關注
關注
9文章
4469瀏覽量
51109 -
API
+關注
關注
2文章
1501瀏覽量
62025 -
華為云
+關注
關注
3文章
2491瀏覽量
17429
發布評論請先 登錄
相關推薦
華為云CodeArts API助力企業數字化轉型
工業云網關有什么功能和優勢
深入淺出系列之代碼可讀性
利用鋇錸Modbus轉MQTT網關實現數據高效上傳至華為云平臺

IEC104轉MQTT網關支持Zabbix、阿里云、華為云、亞馬遜AWS、ThingsBoard、Ignition

評論