越來越多的行業(yè)用戶選擇利用云計算技術構建自己的數(shù)據(jù)中心,但業(yè)務集中、數(shù)據(jù)集中的同時,也意味著風險的集中。
一旦發(fā)生數(shù)據(jù)中心人為誤操作、網(wǎng)絡故障甚至災難時,企業(yè)及分支機構將無法對外提供服務,甚至關鍵數(shù)據(jù)也會丟失。
從GitLab事件看企業(yè)災備現(xiàn)狀
去年,全球知名的開源托管服務平臺GitLab數(shù)據(jù)丟失事件可能大多數(shù)人還印象深刻,因為缺乏完善的災備方案,人為誤刪數(shù)據(jù)庫致使系統(tǒng)宕機,并且長時間無法恢復。慶幸的是,運維工程師利用一次偶然產出的LVM快照,使數(shù)據(jù)得以恢復到6個小時之前的狀態(tài),但中間丟失的那部分數(shù)據(jù)對用戶的潛在影響是無法用數(shù)字衡量的。
事實上,缺失災備方案的并不只有GitLab,諸多企業(yè)均存在類似的情況。由于成本和技術等原因,企業(yè)只應用傳統(tǒng)的本地備份方案,并且通常只針對企業(yè)重要的業(yè)務數(shù)據(jù)(數(shù)據(jù)庫、電子郵件等)進行備份,而不對操作系統(tǒng)及應用程序進行備份。故障發(fā)生后,需要耗費大量的時間在備份文件的導入恢復和配置上。業(yè)務恢復周期長、操作復雜,很多企業(yè)在做了災備方案后,卻束之高閣,無法應用。
因此,如何以更高的性價比實現(xiàn)企業(yè)業(yè)務連續(xù)性,平衡風險、效率與成本,是當前企業(yè)用戶的迫切期望。
企業(yè)災備建設需要“因地制宜”
不同類型的風險其影響程度、發(fā)生概率和造成的損失大小是不同的, 在討論企業(yè)災備建設方案之前,可以將企業(yè)各信息系統(tǒng)所面臨的風險因素、概率、影響和應對手段進行分析,以便于企業(yè)根據(jù)風險的抵御能力以及應用系統(tǒng)的重要程度,評估如何采取相應的災備措施來減低各種風險和威脅可能帶來的影響和損失。
企業(yè)信息化風險評估與應對措施
根據(jù)上面的分析,基于不同的風險抵御能力,災備的建設分為兩個維度、四個層次:
- 數(shù)據(jù)維度(本地、異地)
- 業(yè)務維度(同城連續(xù)性、異地連續(xù)性)
企業(yè)應用云計算技術之前,災備的建設更多還是解決數(shù)據(jù)層面的問題,主要是利用傳統(tǒng)存儲設備的數(shù)據(jù)復制特性,由存儲設備統(tǒng)一完成上層業(yè)務(包括數(shù)據(jù)庫系統(tǒng))的跨地域數(shù)據(jù)復制。但因為技術綁定和所有業(yè)務系統(tǒng)共吃一個”大鍋飯”的原因,建設成本高昂,災備效率不高,兼容性和數(shù)據(jù)一致性也存在一定的風險,并且由于只是數(shù)據(jù)級的復制,依舊無法解決數(shù)據(jù)備份和業(yè)務恢復復雜度高的問題。