信息化改變了企業,計算機逐漸必不可缺。以前人們用手工來記賬、制造產品,如今都已經被計算機所替代。計算機可以用幾倍、幾十倍的速度完成這些工作,并且錯誤率極低。商業模式改變了。很顯然,一旦計算機出現故障,我們不可能再回到手工時代,即使企業能提供足夠的人力,也無法保證這些人還擁有相應的業務技能。于是災難恢復行業應運而生。今天,災難恢復(Disaster Recovery)一詞一般意味著技術環境的恢復。
對災難恢復的認知需要時間,很多行業直到911事件之后才認識到數據中心對企業的重要性。擁有數據中心的唯一理由是為了企業的業務運行–數據中心的運營人員有時候會忘記了這一點。如果不是為了那些給企業贏利的業務,我們就不會需要數據中心了。
企業面臨的風險
為了說服領導層同意建立一套切實可行的業務連續計劃,你需要去幫助他們了解如果沒有這一計劃,企業將面臨怎樣的風險,以及風險發生時企業將會蒙受怎樣的損失。通常,企業所面臨的風險包括財務(企業將損失多少錢)、聲譽(企業將面臨顧客和股東的責難),以及合規性(監管機構罰款及訴訟)。
財務風險通??梢员涣炕?,并可以用來幫助企業決定應該在恢復計劃上投入多少資金。計算財務風險的一個方法是使用公式P×M=C。P指的是損害可能性,即損害事件發生的可能性;M指的是損害程度,即可能對企業財務的損害程度;C代表防止災難發生的平均成本,即實施事件防御措施所需的費用。
名譽風險相對來說難以量化,但是很明顯無論身處哪一行業你都會有許多競爭對手。如果今天你不能滿足客戶的需求,明天他們很可能就投入另一家企業的懷抱。對災難的管理不當往往也會對企業的股價帶來消極的影響。你可以向管理層展示安然、安達信等案例,同時問問他們的想法。有效的危機與業務連續管理很可能是一個從災難中恢復的企業和一個在災難中消失的企業之間的唯一區別。
合規性風險已經被企業所處行業的監管機構明確定義。無論你身處哪個行業,有一條法則被廣泛地應用,即對待企業事務要跟對待個人事務那樣投入同樣的精力。
如何建立?
當你獲得管理層的許可之后,要建立一個企業范圍的業務連續計劃,第一步就是組建你的團隊。要建立一個可行有效的計劃,你需要企業每個部門中的至少一位人員的協助。為使計劃順利制定,這些人將被分配完成一系列任務。下面這個表格列出了每一個參與規劃的人員需要完成的任務,以及每項任務完成的頻率。根據每個企業各自的特點,這些任務可能會有所不同。
BCP任務 |
說明 |
執行頻率 |
參與管理 |
|
持續進行 |
參與BCP |
|
持續進行 |
文檔記錄核心員工手機號碼 |
|
持續進行 |
發布緊急通知名單(ENL) |
|
每季度一次 |
電話會議流程 |
|
每年一次 |
明確業務功能及其關鍵性 |
|
每年兩次 |
備用場地資源需求定義 |
|
每年兩次 |
執行技術檢查 |
|
每年一次 |
記錄相互依賴性 |
|
每年一次 |
發布管理層簽字的計劃原件 |
|
每年一次 |
計劃并執行緊急聯系測試 |
|
每年兩次 |
計劃和執行緊急演練 |
|
每年一次 |
計劃和執行緊急測試系統 |
|
每年一次 |
計劃和執行宣傳計劃 |
|
每半年 |
業務連續規劃人員首先應該明確,當發生了影響業務運行的災難時,他們需要聯系哪些部門的人,并在此基礎上建立一個緊急通知名單(ENL)。
下一步要做的是確?;謴蜆I務運行所需的所有備份都被存儲在一個安全的異地場所,該場所必須不會受同一事件的影響,并且可以在事件發生后隨時啟用。這些備份既包括傳統備份比如服務器備份和紙質文檔,也包括非傳統備份比如流程手冊、表格和信頭等。
一旦團隊組建完畢,相關備份也已經到位,下一個重要的步驟就是進行業務影響分析(BIA)。業務影響分析的作用在于幫助企業決定哪些是需要恢復的,以及需要在多長時間內恢復。這一步驟中不要使用"關鍵的"或者"重要的"這樣的詞匯,因為沒有人會認為自己是"不重要的",可以使用的詞匯是"時間緊迫的"。
一般來說,企業不會雇傭員工去做沒有用的事情。每一項業務都有相應的目標,但是在有限的時間和資源情況下,其中一些相對來說時間更為緊迫。你可以這樣想,如果銀行由于發生火災而停止了業務,作為一個顧客,你不會去關注他們什么時候恢復市場營銷計劃或恢復他們的總帳系統,但如果在幾個星期內都無法存取款你將會非常沮喪。
企業應該用同樣的方式來考慮每一個業務功能。在不發生重大財務損失、客戶流失或監管處罰的前提下,我們可以在多長時間內不考慮恢復某一業務功能?
在恢復優先權的基礎上對所有業務功能進行分類,之后規劃團隊需要明確執行這些恢復所必須的資源,包括應用系統、最少的員工需求、電話、座席、內外部支持等等,同時按照業務支持的需要來細分每個應用系統的恢復優先權。
業務影響分析完成后的下一個步驟是為各個業務功能確定不同的恢復策略,這完全取決于功能的恢復時間框架。策略可以包括以下的一種或幾種:
- Ø 自我服務–一個業務單元的功能可以轉移到所在地的另一個有可用設備的單元。
- Ø 內部管理–培訓室、餐廳、會議室等,應該包括能夠支持業務功能的所有設備。
- Ø 互補協議–其他業務單元能夠接管那些被災難影響的單元,此時可以臨時停止接管單元中的非關鍵業務。
- Ø 專用備用場地–企業用來進行關鍵功能恢復的場地。
- Ø 外部支持–外部可以提供全程災難恢復服務的專業公司。
- Ø 無需安排–對于一些低優先權的業務功能不需要規劃的很詳細以節約成本,此類業務的恢復規劃只要有對功能的描述,明確可接受的最大恢復時間,以及恢復資源清單即可。
一旦恢復策略明確并開始在每個部門中執行,下一步就是將業務連續計劃文檔化,包括激活流程、恢復策略、以及恢復結果的文檔管理、人力資源問題的處理、恢復費用的支付、與內外股東的溝通等,并明確每一個團隊中每一個成員的詳細行動計劃。最后,計劃需要分發給每一個參與恢復的人員。
再下一步就是測試、測試、再測試。當人們提及測試時一般想到的是"成功或者失敗"。其實,一個應急測試是不應該失敗的。如果我們已經知道計劃能夠全部起到作用,我們就沒有必要去測試它了。應急測試的關鍵是去發現哪一部分沒有起到作用,以使我們可以在災難實際發生前去修復它。你應該使用緊急通知名單(ENL)來測試你的通知流程,和團隊一起用桌面演練的方式來測試你的事件管理流程,以及測試你的備用場地來確認他們擁有真正恢復時所需的所有資源。
每一次測試之后很重要的是記錄測試結果、并根據測試更新你的業務連續計劃。計劃應該至少每年更新一次,如果業務領域有重大變更的話應該更為頻繁地更新。
確保所有的員工都知道業務連續計劃及其內容。將業務連續計劃添加到你的新員工入職指南中,和不同的部門的人進行測試,將企業恢復的責任下放到每一個員工身上。