???????????? ICOS 高可用計算架構

業務層高可用:確保業務高可用的關鍵在于能敏銳感知Hypervisor虛擬化層面異常事件并及時采取合適的保護動作。ICOS的集群HA管理服務方案在計算主機配置云主機監控服務,輪詢底層虛擬化接口,關注虛擬機異常事件,例如“異常退出”。當事件發生時,云主機監控服務封裝并發送“云主機異常退出通知”到集群HA管理服務,由異常事件處理引擎甄別事件,并發送“云主機重啟”請求到ICOS計算服務接口,完成對問題業務的恢復。

關鍵進程高可用:如果要確保業務云主機的健康運行,僅僅從Hypervisor層關注虛擬機是否宕機顯然是不夠的,因為在復雜的云環境下,業務的健康不僅取決于其掛載的后端分布式存儲是否可用,業務網絡是否暢通,還在于云環境中能否被良好地治理等諸多因素。在計算集群中,負責維護這些因素良好狀態的進程就是我們所關注的“關鍵進程”。ICOS的集群HA管理服務方案提供了一套高度可配置化,自由定制化架構以實現對計算主機進程的監控:監控進程列表可配置,監控腳本以及異常處理Action可以自定義,支持基于Action列表的工作流定制化。

系統默認提供“嘗試重新啟動失敗進程”的處理方式,一旦目標進程發生異常,可以在數秒內檢測到并恢復服務以解決問題,如果多次嘗試無果,即自動發送“進程不可用”事件到集群HA管理服務,由其通知云平臺Disable本節點計算服務,使該計算主機不在為新建虛擬機提供計算資源,但并不妨礙既有業務運行,這時配合外部的集群監控系統告知運維人員,使其進行系統修復,并可以將該修復方法定義為新的Action以實現系統的進化。

主機高可用:各個計算主機上的主機監控進程集成了業界成熟開源的高可用心跳檢測工具Pacemaker Remote,不僅可以提供高效率的運行狀態探測,而且突破了Pacemaker集群最多16節點的限制,極大地擴展了計算集群大規模彈性的上限。主機監控進程借助該工具感知集群Peer節點的運行狀態,一旦發生物理主機宕機,那么就會由心跳集群主控節點的主機監控進程產生“宕機事件通知”,并告知集群HA管理服務,并經后者的事件處理引擎甄別,觸發ICOS計算服務的“云主機疏散”,將故障主機上的業務遷移到集群其他可用計算節點,從發現宕機到虛擬機重啟并且能夠正常運行,整體時間可以控制在1分鐘左右。此外,ICOS還可以基于可配置策略對物理主機進行諸如重啟或者關機的相應處理策略,從而防止業務虛擬機出現腦裂現象。當主機故障清除后,主機健康運行后,還可以根據配置策略決定是否自動加入高可用監控集群中,使得高可用的配置策略更加簡單化、人性化。

借助于浪潮自研的高可靠分布式存儲以及ICOS全方位的集群高可用管理服務,在主機硬件故障,機房斷電等不可抗因素引發宕機的場景下,ICOS確保業務連續性,有效降低宕機時間。

未經允許不得轉載:存儲在線-存儲專業媒體 » 浪潮InCloud OpenStack:度量可用性“三維”,實現高可用云環境
分享到

zhangnn

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走