多級冗余,數據為先。一是主機和磁盤陣列的冗余配置,主機的電源、內存、磁盤、光纖卡、網卡等都是冗余的,冗余的網卡、光纖卡要確保連接在不同的交換機上。二是機房、空調、電源的冗余,電源要配獨立的雙UPS和雙電源線接入。三是物理傳輸路由的冗余,冗余光纖傳輸要來自不同的物理路由。四是數據中心的冗余,三個中心互為災備,任何一個癱瘓,都可以由另外兩個數據中心接管。

多級預案,逐步升級。一級為業務應急預案,在業務本地運行模式下,系統出現故障時啟動,以實現對業務的影響最小或者沒有影響。通過業務部署、業務冗余處理模塊等多種方式實現。二級為本地接管預案,在單點故障或設備主動維護時,BOSS各個業務系統均實現本地HA(高可用性)接管,關鍵系統如營業、計費、漫游、接口都實現了自動接管。三級為容災切換預案,山東移動建設了負荷分擔、互為備份的三中心容災體系,數據庫層采用1對2的架構,采用“存儲底層同步復制+定時快照復制”技術,防止數據的物理或邏輯錯誤。四級為備份恢復系統,它提供生產數據快照及磁帶備份,日常全備和增量備份均直接通過遠程SAN備份到異地中心,用于嚴重事件的應急恢復工作。從第一級到第四級預案,故障帶來的損害程度逐漸增大,處理時間也逐步增長,當然對業務的影響程度也逐漸增大。根據事件發生的性質和影響程度,優先采用影響業務小的預案,并視情況逐步升級應急預案,目的是使事件對業務的影響減少到最低。

多級聯動,重點保障。建立完善的應急管理制度,才可以保證在遇到突發事件時,應急管理組織體系能夠有效運轉。經過幾年的實踐,山東移動建立了應急監測預警機制、信息溝通機制、應急決策和協調機制、分級負責與響應機制。理順了業務與IT部門在應對突發事件中的關系、應急指揮和實施部門的關系、綜合應急部門和支持廠商的關系,建立了信息統一、管理對接、資源共享、協同有力的應急管理機制,調動各方面應急管理的積極性。一方面,梳通內部流程,打通省市間、賬務中心與其它部門間的通道;另一方面,梳通廠家支持流程,與支持廠商建立合作關系,從而構建了“省-市-合作伙伴”多級聯動的應急保障體系。

不同業務及系統的應急代價是完全不同的,同時帶來的應急手段差異也很大,需要以“最小的代價”進行系統的“最快應急”。對開戶、繳費、業務變更等關鍵業務,山東移動自主獨立開發了單獨的關鍵業務保障小系統,獨立于BOSS系統外,同時和BOSS系統建立自動接口,確保緊急情況下可以啟用該系統,進行最關鍵業務的辦理。在系統異常、版本上線、本地接管、容災切換的過程中,可以啟用關鍵業務保障子系統,進而打造一個關鍵業務不間斷的BOSS系統。

立足業務 自主創新

山東移動BOSS系統的核心業務都是構建在EMC公司的設備和軟件之上,包括EMC Symmetrix DMX存儲陣列、SRDF/快照等。EMC在業務連續性保障方面也具有豐富的經驗。按照慣例,運營商一般將系統架構設計和建設主要交給廠商/系統集成商來主導,山東移動在BOSS應急體系建設中堅持自己主導,與廠商進行互動,充分利用廠商技術、產品、服務和經驗,進行自主創新,取得了良好的效果。

山東移動的“多中心業務容災”模式,就是在應急系統架構上的一個自主創新。具體做法是,將容災機房和生產機房混合部署。例如,A、B、C三個機房,每個機房都有完整的BOSS系統,各自承擔一部分地市的業務。C機房最大,對A和B機房同時進行災備,任何一個機房出現嚴重問題,其它兩個機房能夠接管全部的業務。

“多中心業務容災”的關鍵在于,根據多年系統維護經驗,提出對業務處理進行縱向拆分。業務處理縱向拆分,就是山東移動根據對業務應用的思考,自己做出的決定,目的是將故障對客戶的影響減少到最低。這也是實現多中心良好運轉的前提。這樣,山東移動就將業務處理分布到三個數據中心,每個中心平時均有完整的BOSS系統,承擔一個區的業務。當一個系統發生故障時,影響的只是該區域,而且可以切換到別的區域系統上應急處理。相比之下,橫向拆分,是指讓全省所有用戶運行一個系統,例如全省的營業系統、全省的帳務系統,當一個系統發生故障時,會影響到全省。

這樣做也有利于提高應急平臺的可用性。當業務處理系統處于“正常狀態”時,業務負載均衡,應急系統處理壓力不大,業務服務響應速度很快。而當某個數據中心的業務系統處于“應急狀態”時,只需要數據中心的相關業務資源進行應急切換即可,可以很快做出應急響應。

在具體拆分業務處理時,山東移動充分利用廠商資源,參照EMC的業務負載分析工具,對業務處理進行合理的拆分。

從技術上,“多中心業務容災”運用了虛擬化技術,將生產資源和容災資源放在統一的資源池里,在節假日或業務突發時,將容災資源動態分配給生產應用。這種做法,跟時下的熱門話題云計算不謀而合,山東公司的做法也是云計算成功落地的典范案例。

通過“資源動態管理”對應急管理手段進行創新,根據業務發展量和實際需要分配資源,為業務高峰、業務應急、重大賽事期間提供了臨時集中資源保障方案,可瞬間提升系統處理能力,從而支持了應急系統的功效。如遇業務高峰期,或應用軟件效率不高、HA接管等突發事件時,可以通過動態調整資源,保證系統運行穩定。例如,2008年12月1日,一臺服務器CPU故障,造成系統宕機,營業一區數據庫B結點切換至A結點,但由于月初業務量大,營業一區A結點機器壓力非常大,通過將該結點所在的其它分區容災資源動態調整給該機器使用,確保了前臺系統的穩定運行。在月底夜間進行帳務處理或生產報表時,也可以將其它分區的資源調劑給帳務系統使用。任務完成后,再返回給原系統。

通過發揮資源池的規?;?,大大節省了資源。正常運轉時,10%的資源給容災。如果采用主備方式,需要將50%左右的資源給容災。橫向比較,全國的標準是,每增加一個用戶,業務支撐系統的建設投資平均增加20元左右,而山東移動只需要10元左右。

為關鍵業務開設“綠色應急通道”,是山東移動的另一項自主創新。BOSS系統的首要任務是服務好客戶,提高客戶滿意度,提高繳費、開機的時效,做到業務影響最小化。山東移動對6個場景的8類業務開辟了綠色應急通道,例如繳費、開機延遲達到30秒時,從業務層面自動打開綠色通道,先為用戶開機,系統恢復時再進行標準的流程處理。

目前,山東移動為BOSS應急體系申請了9項專利。

“功夫在詩外”

山東公司領導對業務支撐系統的高度重視,是BOSS應急系統得以加強的動力和保障。公司領導要求BOSS系統使用最好的設備,所有的關鍵環節都要求有備份設備。通過加大系統的投入來保證系統運行的可靠性和穩定性,這也是實現公司“以客戶為中心”服務理念有力保障。

最后要強調的一點是,應急體系的建設不應該是狹義的。“功夫在詩外”,要強身健體,才能少生病,這也與中醫的“上醫治未病”理論一脈相承。建立完善的系統,不出問題,少出問題,讓應急系統很少啟用,才是應急體系的根本。例如,山東移動的話單查詢系統和計費系統是分開的。我們這樣有利于減輕系統的負荷,讓計費系統輕裝前進,保證繳費、開機的時效,這也屬于應急體系的考慮范疇。山東移動還在BOSS系統上部署了EMC企業級閃盤,提高客戶資料的讀取速度,從而提高了整體系統的處理能力,這也屬于應急體系的考慮范疇。

此外,應急體系的演練也非常重要。山東移動每個季度都要進行一次演練。山東移動制定了6類應急場景,針對可實施場景進行了演練。每次演練都有大的收獲。演練分為多個級別,小的方面,比如,關掉一個交換機,檢查是否兩個網卡在同一交換機,關掉一個UPS,關掉一個HA節點等;大的方面,比如把整個機房某個業務停掉,通過演練不斷優化。在演練中發現,通過容災導航軟件進行系統導航,可以提高應急響應速度及處理準確性。

山東移動應急體系正式建設以來,BOSS系統退服時間指標逐月下降,客戶投訴率指標下降明顯,BOSS系統客服滿意度指標上升明顯,話費信息獲取速度、繳費成功率、開機速度都大大提高,營業廳很少遇到故障,應急系統的貢獻明顯。根據業務部門內部評價、集團考核和外部客戶滿意度調查的結果,山東移動BOSS系統的滿意度處于全國前幾名的位置。系統每天的計劃外退服時長縮短了幾十倍,應急系統建設之前,每年的退服時長在幾百分鐘,現在,每年的退服時間達到100分鐘以內,用戶端幾乎感受不到系統停頓。每萬用戶的支撐類投訴比從0.4下降到0.05左右。繳費開機的速度也大大加快,由原來的幾分鐘達到目前的平均幾秒數量級。

希望山東移動的這些點滴經驗,能夠對IT同行們有所啟發。

作者簡介:崔可升,中國移動山東分公司帳務中心副主任。1995年開始從事業務支撐系統的開發和維護管理工作。16年時間,見證了階段,從郵電分營、尋呼分營、移動分拆、南北電信分離等多個時期的業務支撐系統建設。

未經允許不得轉載:存儲在線-存儲專業媒體 » 山東移動BOSS應急體系建設經驗和體會
分享到

cuihao

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走