針對阿里云 11.12 的重大服務故障, 該公司發給客戶的一份「官方故障報告」在網上被廣泛流傳。
影響范圍
1、OSS、OTS、SLS、MNS 等產品的部分服務受到影響,大部分產品如 ECS、RDS、網絡等運行不受影響。
2、云產品控制臺、管控 API 等功能受到影響。
時間
2023 年 11 月 12 日 17:39~19.20,故障時間為 1 小時 41 分。
問題概況
2023 年 11 月 12 日 17:39 起,阿里云云產品控制臺訪問及管控 API 調用出現異常、部分云產品服務訪問異常,工程師排查故障原因與訪問密鑰服務 (AK) 異常有關。工程師修訂白名單版本后,采取分批重啟 AK 服務的措施,于 18:35 開始陸續恢復,19:20 絕大部分 Region 產品控制臺和管控 API 恢復。
處理過程
17:39:阿里云云產品控制臺訪問及管控 API 調用出現異常。
17:50:工程師確認故障是 AK 服務異常導致,影響云產品控制臺、管控 API 調用異常,以及依賴 AK 服務的云產品服務運行異常。
18:01:工程師定位到根因。
18:07:開始執行恢復措施,包括修訂白名單版本、重啟 AK 服務。
18:35:杭州等 Region 開始恢復正常。
19:20:絕大部分 Region 的云產品控制臺和管控 API 調用恢復正常。
原因
訪問密鑰服務 (AK)在讀取白名單數據時出現讀取異常,因處理讀取異常的代碼存在邏輯缺陷,生成了一份不完整白名單,導致不在此白名單中的有效請求失敗,影響云產品控制臺及管控 API 服務出現異常,同時部分依賴 AK 服務的產品因不完整的白名單出現部分服務運行異常。
改進措施
1、增加 AK 服務白名單生成結果的校驗及告警攔截能力。
2、增加 AK 服務白名單更新的灰度驗證邏輯,提前發現異常。
3、增加 AK 服務白名單的快速恢復能力。
4、加強云產品側的聯動恢復能力。
編輯:黃飛
-
API
+關注
關注
2文章
1553瀏覽量
63258 -
阿里云
+關注
關注
3文章
998瀏覽量
43733 -
RDS
+關注
關注
0文章
103瀏覽量
17079
原文標題:阿里云 11.12 故障原因曝光
文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論