災備系統(tǒng)的有效性問題涉及到災備建設的實際目標和符合目標的災備技術路線,清楚認識災備系統(tǒng)的有效性問題人們必須領悟到一個更深層次的道理:災備系統(tǒng)的建設要求災難防御全方位,不能只防小概率的自然災害,更要防止概率大的設備故障和邏輯故障,嚴密的多方位防護網(wǎng)才是取勝之道。
建設一個永不失效的災難防御體系,需要踏踏實實地從以下四個方面著手:
1)防御災難的目標要細化
不能僅籠統(tǒng)的說大災防御,而對于各種設備和網(wǎng)絡的易發(fā)事故卻缺少針對性,甚至于認為備份系統(tǒng)就已經(jīng)完成了這類防御目標,這只能說繼續(xù)走著傳統(tǒng)失靈的眾多災備建設的老路。在一些傳統(tǒng)的早期災備系統(tǒng)建設中,的的確確只有大災的應急機制,而根本沒有把頻發(fā)的故障列入防御目標,這本身已經(jīng)造成了我國許多災備建設的資金浪費,導致必須推到重建災備系統(tǒng),或者重復投資建立更高級的防護體系。在信息系統(tǒng)的安全事故中,比較容易導致災備體系不作為的事故往往是:數(shù)據(jù)庫系統(tǒng)癱瘓無法運行、數(shù)據(jù)文件損壞或者丟失、存儲設備故障等等,在我國,已經(jīng)有多個企業(yè)領教了這類故障的破壞力。
2)建設分層次的恢復體系
以往,人們往往認為,建設異地災備中心,就是什么故障都在異地運行或者恢復。這著實是一個特大的誤區(qū)。人們必須知道,異地災備中心,其建設宗旨只能是大災的防御,啟用異地災備中心,不僅要經(jīng)過嚴格的業(yè)務連續(xù)性流程的審核(例如預警機制和宣告機制),而且要動用大量的災備中心處理人員,數(shù)據(jù)向生產(chǎn)中心的恢復也是復雜而漫長的過程。而部分災備技術路線還不能保證啟動的應用系統(tǒng)的數(shù)據(jù)一致性和完整性,這也是很多完成建設的企業(yè)一般不啟動災備中心或者恐懼災備中心啟動的重要原因。而各類易發(fā)的故障(例如邏輯故障、設備故障),如果其恢復依賴在災備中心的啟動和修復上,無疑是風險放大、家丑外揚之舉,恢復的效果也根本無法預料。這就是故障發(fā)生后,災備系統(tǒng)不作為的眾多因素之一。
怎么辦?根本解決就在于啟動先進的災備技術路線,完成分層次的恢復體系,就是設備故障(包括邏輯故障)本地修復、系統(tǒng)災難異地啟動這十四字方針。
目前,部分先進的災備技術(如飛康的持續(xù)數(shù)據(jù)保護災備技術)具備瞬間的本地修復能力,這樣,就可以在極短的時間完成設備故障的應急響應(一般甚至于可以達到幾秒鐘)。對于業(yè)務體系而言,業(yè)務連續(xù)性的保證化解了內(nèi)部故障帶來的可能造成的巨大社會風險和經(jīng)濟風險(例如大量的索賠等)
3)修復技術采用先驗證技術
以往,人們認識的修復技術往往是“回存”技術,就是要把備份數(shù)據(jù)介質(zhì)倒回生產(chǎn)系統(tǒng)中,然后等待恢復的效果和業(yè)務的啟動,這種技術存在眾多風險,首先是在漫長的數(shù)據(jù)恢復之前,完全無法預料恢復時間和恢復可靠性。其次,一旦恢復成功,卻發(fā)現(xiàn)恢復的數(shù)據(jù)并非自己需要的時間點,或者需要的數(shù)據(jù)不存在,這已完全無法回退到初始狀態(tài),系統(tǒng)將進入更為嚴重的不可控狀態(tài)。在這類技術中,業(yè)務連續(xù)性根本就不在考慮范圍,人們盼著數(shù)據(jù)能夠回來就已經(jīng)興高采烈了,哪里還能奢望瞬間業(yè)務繼續(xù)運行呢?
目前,許多行業(yè)的領導者已經(jīng)將目光延伸到先驗證的災難恢復技術上,這類技術的特點就是在出現(xiàn)數(shù)據(jù)損壞時,可以立即提供原格式的數(shù)據(jù)時間點供驗證,業(yè)務系統(tǒng)立即運行,在確保了業(yè)務連續(xù)性的極為重要的目標,此后,可以利用其余空閑時段,再行修復生產(chǎn)設備。這一體系被稱為“先生產(chǎn),后修復”。
4)注重傳輸帶寬的研究
異地容災的一個重要領域就是傳輸帶寬技術,這一技術的不足往往可以導致由于帶寬不足造成數(shù)據(jù)延遲過大,造成災備中心數(shù)據(jù)不可用等等。許多災備技術路線都在傳輸帶寬的精簡技術上練內(nèi)功,比拼能力,這是十分正確的。有效的精簡帶寬傳輸技術能夠使得災備建設的成本大為降低,也可以使災備中心的數(shù)據(jù)實時性大為提高,對于數(shù)據(jù)向生產(chǎn)中心的恢復也能獲得十分有效的速度提升。