97精品视频-蜜桃精品噜噜噜成人av-国内自拍偷拍视频-国产乱妇4p交换乱免费视频-久久er99热精品一区二区-熟妇高潮精品一区二区三区-国产呦小j女精品视频-性色av网-初尝黑人巨炮波多野结衣-精品国产乱码久久久久久88av-国产吞精囗交久久久-www.色网站-欧亚一区二区三区-日本午夜精华-国产成人精品网

造成數據中心故障宕機2大災害因素及3大應對策略
發布時間:2024-07-24
分享到

通常來說,自然災害主要包括洪澇、地震、火災、臺風、低溫和雪災、地質災害等,極有可能造成房屋受損,或水電、交通等不暢。自然災害以前曾是導致數據中心出現宕機或停服的主要原因。比如,2021年7月那場發生在鄭州的百年未遇的大雨。2021年7月20日,鄭州一小時最大降雨量達到201.9毫米,突破歷史極值。因為大雨,導致城市基礎設施建設受損、斷電或者建筑物進水,一些第三方的數據中心服務商因其機房受到影響,而導致服務中斷。


導致數據中心宕機主要有兩大類情況:一是自然災害,使得服務器、存儲等IT設備,以及相關機房物理基礎設受損,從而導致服務中斷;二是人為的原因,比如管理員誤操作、軟件故障或者是惡意破壞行為(如勒索軟件或病毒),也可能導致服務中斷。

從近幾年全球曝光的數據中心重大災難性事件來看,因為自然災害,比如火災、物理設備故障等導致的停服事件,我們聽說的似乎在減少。畢竟自然災害相對來說還是小概率事件。另一方面,由于人們防災減災的意識不斷增強,無論是在提前預測災難性事件,還是在應急響應方面,都做了大量努力和工作,將因自然災害導致的負面影響降得更低。

此外,人們在數據中心的規劃和建設方面,越來越科學和規范化、標準化。比如在數據中心的選址方面,會選擇遠離地震帶,而且水電和制冷資源豐富的地方,數據中心建筑物也是專門設計、獨立建設的,而不是在一些寫字樓的基礎之上改造而來。數據中心內的設備也做了充分的冗余設計。很多企業平時也十分注重災備演練。上述這些有效的措施,大大降低了因自然災害導致的服務中斷的可能性。

但是讓我們不得不警醒的是,因人為原因造成的數據中心故障或宕機,成了影響業務連續性的最大“短板”。

NEWS

2023年1月,Kaseya旗下的IT文檔軟件廠商IT Glue報告稱,在進行緊急數據庫維護時,導致服務中斷。

NEWS

2023年5月,微軟Azure DevOps服務因一個簡單的拼寫錯誤致使17個生產數據庫被刪除。此次事故導致Azure DevOps服務在巴西南部地區停運了約10小時。

NEWS

2024年4月,國內某知名云服務商曝出服務故障,表現為接口響應報錯和網頁顯示504錯誤,影響范圍覆蓋全國。服務中斷近87分鐘,據說是云API服務異常所導致。

NEWS

2024年6月,澳大利亞養老金巨頭UniSuper的服務器發生中斷,原因是 Google Cloud在配置UniSuper私有云期間出現了錯誤,導致該基金的Google Cloud賬戶被大規模刪除,甚至刪除了UniSuper在其他地方的備份數據。此次宕機持續了大約一周時間。

NEWS

近日又有消息曝出,東南亞某國國家數據中心遭勒索軟件變種攻擊,由于該數據中心超98%的數據未做數據備份,導致數據一時無法恢復。

從這些事件中可以看出,不當的數據刪除、系統維護或升級過程中的誤操作、備份不健全、勒索軟件等惡意攻擊行為等,是造成數據中心或云服務中斷的主要重要。有統計顯示,大約七成以上的數據中心事故都是由人為因素造成的。因為技術的進步、工作負載的增加,數據中心整個系統越來越龐大和復雜,這給日常的運維運營造成了極大的壓力。另外,以勒索軟件為代表的網絡安全威脅愈演愈烈,成了數據中心正常運行的“不定時炸彈”。

找到病癥,然后對癥下藥。既然人為因素是造成數據中心和云服務中斷的最主要原因,那么在平時的系統運維以及災備系統建設和實施的過程中,就應該針對各種可能造成事故的人為因素進行深入分析,找出有效的應對之策。

災備意識要進一步增強

企業不僅要知其然,更要知其所以然,針對有可能導致數據中心故障或云服務宕機的各種因素進行充分分析,然后制定萬全之策。千萬不能有任何僥幸心理。企業管理層不僅要有極強的安全和災備意識,更要督促企業各層級按照統一要求,將災備和安全防御措施落實到位,責任到人。

災備演練不能成為擺設

由于人力、成本、時間或者實施難度等問題,有些企業可能制定了災備演練計劃,但是沒有嚴格按照既定的周期和目標完成演練。這樣很容易導致在災難或故障發生時,不敢切換或不能切換,讓災備建設流于口頭,而不能充分發揮其實際作用。現在,國內的一些災備廠商,比如英方軟件、美創科技、科力銳等,在災備一體化,尤其是災備的管理上,做了進一步增強、優化,讓用戶可以低成本、更容易、更智能地實施災備演練,并對整個災備流程進行統一智能高效地管理。

網絡韌性(網絡彈性),是必須補上的一課

如今,網絡攻擊越來越猖獗,尤其是勒索病毒,針對性強、破壞性大。許多數據保護、災備廠商,也都開始將提升“網絡韌性”納入了整體戰略和解決方案中,比如VERITAS、Commvault、戴爾科技等。

運維管理常態化

建設一個災備系統容易,但是在長期的系統日常運營維護中,少出錯、不出錯,最大程度地保證業務連續性,這是每個企業必須直面的挑戰。企業不僅要在思想上重視起來,更要在公司制度、人才培養和使用、技能提升,甚至在外包服務的選擇上,都要認真思考并嚴格執行。
 

相關新聞更多