數據存儲產業服務平臺

專家博客:針對大型歸檔的災難恢復規劃(下)

本文作者Henry Newman是Instrumental Inc.的首席技術官。他是一位行業咨詢師,在高性能計算和存儲領域擁有28年的工作經驗。 

DOSTOR存儲在線1月18國際報道: 

對磁盤和磁帶歸檔的建議

對于大型歸檔,我的數據保護策略和流程建議如下。除了注明的地方外,這些策略和流程都適用于磁盤歸檔和磁帶歸檔。

數據應該同步復制到潛在災難區域以外的另一個地方。例如,如果你所在的地區可能有龍卷風,那么你的另一個復制地點應該至少在100英里以外–最好是在500英里以外–大部分龍卷風的行進路線是東西向的,因此你的復制地點應該在你的北面或南面。

用更多的ECC(錯誤檢查糾正)或可用的校驗和來驗證數據。大多數HSM系統在磁帶上有文件校驗和,不過在磁盤上就沒有這種校驗和了。一些技術,比如針對磁盤和磁帶的T10 DIF/PI,將在今年推出。許多廠商已經在致力于端到端的數據完整性技術。按文件的校驗和已經開始成為文件系統社群的一個普遍話題,但是校驗和本身并不能糾正數據,它只是告訴你這個文件是否已經損壞。如果你想知道文件的哪里壞了,你需要文件中的ECC來檢測錯誤點,并希望利用ECC來糾正錯誤。

如果是基于磁盤的歸檔,所有的RAID(獨立磁盤冗余陣列)設備都應該有"讀取時校驗碼檢驗"。一些RAID控制器支持這個,不過也有一些不支持。一些RAID陣列支持這個功能不過會導致明顯的性能下降。比起只有文件校驗和,這個功能提供了另一層完整性,在一些情況下尤其有用,比如當存儲系統內部的一些故障問題導致校驗和失效的時候。讀取時校驗碼檢驗功能確保RAID控制器發現損壞的數據塊,避免導致整個文件的損壞。

如果是基于磁帶的歸檔,重要的是數據不要直接遷移到磁帶,而是先遷移到磁盤然后再通過HSM遷移到磁帶。這里,RAID設備必須有讀取時校驗碼檢驗功能。

確保硬件進行過全面的軟錯誤和硬錯誤檢測。軟錯誤最終會導致硬錯誤和數據損壞。管理員應該在軟錯誤變成應錯誤前快速地處理軟錯誤。對于磁帶來說,這也是一個很重要的問題,因為磁帶還沒有自我監視、分析和報告技術(SMART)標準。

如果可以,定期保護和備份文件系統的元數據以及針對磁帶數據的HSM元數據,因為元數據在故障后不必恢復所有數據就可以恢復。如果元數據和數據本身在文件系統里是分開的,那么這個流程的效果更好而且也更容易。

定期驗證文件校驗和。對于大型歸檔來說,鑒于CPU、記憶體和I/O帶寬的要求,這是一個很大的架構問題。

磁盤歸檔和磁帶歸檔的災難恢復規劃差不多是一樣的。一些技術可能有不同,但是關鍵點是一樣的,就是定期做驗證,準備好應對可能到來的災難。有太多的單位沒有在大型歸檔上進行適當的投資并且同時還做夢不會有數據丟失發生。如果你有50PB的歸檔,只有一個復制站點并因為災難而丟失了歸檔,那么你幾乎肯定會在重新復制站點的時候丟失數據。存儲媒介上的硬錯誤是沒辦法完全避開的。

在我的下一篇文章中,我將討論針對大型歸檔的架構規劃。

本文接:專家博客:針對大型歸檔的災難恢復規劃(上)

未經允許不得轉載:存儲在線-存儲專業媒體 » 專家博客:針對大型歸檔的災難恢復規劃(下)
精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走