您當前位置: 南順網絡>> 官方資訊>> 行業動態

SRE 超載系統導致,谷歌發布宕機事故分析報告

谷歌發布了 12 日大面積服務中斷事故的分析報告,指出系 SRE 超載系統使得 Google 云存儲錯誤率提高導致。

12 日全球各地的許多用戶反映使用 Gmail、YouTube、Google Drive、谷歌音樂與谷歌的其它服務時都遇到了問題,包括北美洲、南美洲、歐洲和亞洲的部分地區都受到影響,谷歌隨后承認出現故障,谷歌云平臺狀態頁面(Google Cloud Status Dashboard)顯示,此次故障影響了谷歌云存儲的所有區域。

當地時間 14 日,谷歌發布了針對該事件的分析報告。

谷歌表示內部 blob(大型數據對象)存儲服務經歷了 4 小時 10 分鐘的服務中斷。分析了根本原因,其指出在 3 月 11 日,Google SRE 被告警內部 blob 服務使用的元數據的存儲資源顯著增加;3 月 12 日,為了減少資源使用,SRE 進行了配置更改,其副作用是使系統的關鍵部分超載以查找 blob 數據的位置,而增加的負載最終導致級聯故障

更具體的,12 日 18:40 到 22:50,谷歌內部 blob 存儲服務錯誤率提高,平均錯誤率為 20%,事件發生時錯誤率為 31%,用戶可見的 Google 服務,包括使用 blob 存儲服務的 Gmail、照片和 Google 云硬盤錯誤率也提高了,如果沒有這些服務中內置的緩存和冗余機制極大地降低了用戶影響,那么后果會更加嚴重。

此次事故中,重大的影響包括:Google 云存儲的長尾延遲較高,平均錯誤率為 4.8%,所有存儲桶位置和存儲類都受到影響,依賴于云存儲的 Google 云平臺服務也受到影響;Stackdriver Monitoring 在檢索歷史時間序列數據時出現了高達 5% 的錯誤率,最近的時間序列數據可用,警報沒有受到影響。App Engine 的 Blobstore API 出現了較高的延遲和錯誤率,在獲取 blob 數據時達到峰值 21%,App Engine 部署出現了高達 90% 的錯誤,從 App Engine 提供靜態文件也會出現錯誤率提升。

谷歌表示非 Google 云平臺服務受到的影響將會有單獨的事件報告。

對于因此事件受到影響的服務與應用客戶,谷歌深表歉意,并表示正在采取措施以提高可用性并防止此類中斷再次發生。

詳情查看:https://status.cloud.google.com/incident/storage/19002


編輯:--謝崇斌

龙王捕鱼上分期下分期