概要
本白皮書提供了關于重復數據刪除技術的補充信息,該技術由惠普最新存儲解決方案的提供支持。在數據保護領域,重復數據刪除是一個熱門話題,因此也就成了HP Data Protector軟件的相關話題。
解決方案描述
HP Data Protector軟件是一款備份和災難恢復產品,可為不斷增加的關鍵業務數據提供可靠的數據保護和高可用性。HP Data Protector網絡組件概念提供了量身定制的備份和恢復解決方案,涵蓋了從單一系統到散布于多個站點的上萬個系統。該軟件完全支持惠普重復數據刪除技術,允許用戶更快地恢復文件,同時降低數據管理和存儲成本。重復數據刪除技術能夠將您的存儲效率提高50倍,高達5000%!您可以使用因此節省下來的容量來支持更多的備份數據在線,并且準備好在短時間內執行恢復操作??傊?,重復數據刪除技術所帶來的存儲效率上的提升可以使您獲得事半功倍的效果。
什么是重復數據刪除?
重復數據刪除是指設備或軟件將正在寫入備份設備的數據塊與該備份設備上之前存儲的數據塊進行比較的能力。如發現重復數據,則會建立一個指向最初數據的指針,而不是存儲重復的數據集。這就消除了冗余數據塊,即重復數據刪除。重復數據刪除在數據塊或數據體級別上(而非文件級)執行。
這就極大地減少了存儲數據量。
重復數據刪除技術通常與其他形式的數據簡縮技術(如傳統的數據壓縮技術)并用,以便進一步減少存儲數據量。
更適當的重復數據刪除方法取決于企業的規模和備份需求。
- 面向企業的重復數據刪除:對于企業客戶來說,對象級區分或加速重復數據刪除是一個不錯的選擇,因為它強調的是性能和可擴展性。對象級區分在數據寫入磁盤之后刪除重復數據,能夠提供更快的恢復速度和可行備份速度。用戶只需添加額外的節點,即可進行縱向擴展,以提高性能。
- 面向中等規模企業和遠程企業站點的重復數據刪除:對于中小規模企業或擁有遠程站點的大型企業來說,基于哈希的數據分塊或動態重復數據刪除是一個不錯的選擇,因為它強調的是兼容性和成本?;诠5臄祿謮K能夠在獨立于格式的解決方案中提供低成本和占用空間小的優勢。
您可在惠普白皮書《了解惠普重復數據刪除戰略》中獲得關于重復數據刪除技術的詳細介紹:http://h71028.www7.hp.com/ERC/downloads/4AA1-9796ENW.pdf
圖1顯示了主要的重復數據刪除概念。
圖1:重復數據刪除概念
原始數據
新版本
執行重復數據刪除操作之后
重復數據刪除的優勢
使用重復數據刪除技術有諸多優勢。最大的好處是增加有效容量,用于存儲備份數據。這能夠實現備份數據在磁盤上更長的保留期,從而實現更快的數據恢復速度和更高的服務水平協議?;萜栈诖疟P的備份系統內置了重復數據刪除功能,還能夠減少不斷增加的受保護數據量所需的存儲空間和電力需求。
如欲了解關于重復數據刪除優勢的更多信息,請閱讀惠普白皮書《惠普動態重復數據刪除 – 實現50倍的提升》:http://h71028.www7.hp.com/ERC/downloads/4AA2-0212ENW.pdf
關于對象級區分的詳細信息
對象級區分(加速重復數據刪除)提供了出色性能,因為對備份數據的重復數據刪除操作是一個在備份操作之后執行的流程。這也是備份設備(虛擬磁帶庫)必須了解備份格式和數據類型,才能識別元數據的原因?;萜占铀僦貜蛿祿h除技術在發布之時即可支持HP Data Protector 6.0軟件和特定的數據類型。
惠普加速重復數據刪除最初支持的數據類型包括:
- 文件系統備份
- 原始磁盤
- Microsoft Exchange
隨著時間的推移,更多的數據類型和未來的Data Protector軟件版本將會被添加到支持矩陣中。
您可在以下網址找到"HP StorageWorks企業備份解決方案(EBS)硬件/軟件兼容性矩陣":http://www.hp.com/go/ebs。
重復數據刪除技術到底能夠節省多少空間?
影響備份操作的重復數據刪除率的兩個主要因素是:
- 數據保留時間
- 數據在兩次備份操作之間的變化程度
示例:500GB文件服務器備份
數據保留策略數據參數
- 1周,每日增量備份(5次)
- 6個月,每周完全備份(25次)
- 每日變化率 = 1%(10%文件中數據的10%)
- 無壓縮
圖2:磁盤空間要求
按一般方式存儲的數據采用重復數據刪除技術存儲的數據
第1次每日完全備份500GB500GB
第1次每日增量備份50GB5GB
第2次每日增量備份50GB5GB
第3次每日增量備份50GB5GB
第4次每日增量備份50GB5GB
第5次每日增量備份50GB5GB
第2次每周完全備份500GB25GB
第3次每周完全備份500GB25GB
第25次每周完全備份500GB25GB
合計12,750GB1,125GB
本示例使用了一個包含500GB備份數據的系統,相當于第一次傳統完全備份需要500GB的存儲空間。如果兩次備份操作之間有10%的文件發生了變化,那么一次傳統增量備份將向備份設備傳送約為完全備份大小10%的數據量(約50GB)。然而,由于重復數據刪除在數據塊級別(而非文件級)上運行,事實上僅有1%的數據發生了變化。這意味著借助重復數據刪除技術,僅發生了5GB的數據塊級變化,或者說僅需存儲5GB的數據。隨著時間的推移,這種節省效應會成倍增長。當進行下一次完全備份存儲時,就不需要傳送500GB的數據了。如果使用重復數據刪除技術,等效的完全備份操作僅傳送25GB的數據。通常僅夠存儲一周傳統備份數據的存儲容量,可供啟用了重復數據刪除功能的備份系統使用六個月。在6個月的時間段內,重復數據刪除技術將提供11:1的有效存儲容量節省空間。重復數據刪除技術還提供了無需從物理磁帶提取數據,即可從更早的時間點恢復數據的能力。這里要記住的關鍵一點是:重復數據刪除率主要取決于兩個因素:
- 兩次備份操作之間,發生變化的數據所占比例(數據所占比例除以文件所占比例)
- 存儲在磁盤上的備份數據的保留時間
例如,如果10%文件中的數據每天發生0.5%的變化,那么相對于為期一年的每日完全備份來說,重復數據刪除率為50:1。很顯然,對于復雜系統(尤其是諸如Exchange、SQL和Oracle之類的應用程序)來說,很難預測每日變化率,因此,強烈建議用戶使用基準化分析法。
正如我們已經指出的那樣,備份數據保留期和備份數據變化率會影響到近似重復數據刪除率的數值。圖3顯示了近似的空間節省情況(基于給出的每日變化率和備份策略)。
圖3:重復數據刪除率
備份策略
每日變化率每日完全備份和每周完全備份每日增量備份和每周完全備份
4個月*6個月1年4個月*6個月1年
0.50%31:137:150:125:131:146:1
1.00%24:127:132:119:123:129:1
2.00%16:117:118:113:115:117:1
* 4個月 = 5次每天備份 + 17次每周備份 比率 = 傳送的數據量/存儲的數據量
惠普重復數據刪除產品組合戰略
惠普為用戶選擇了兩種重復數據刪除技術:一種面向企業,另一種面向中小型企業和遠程辦事處。
- 加速重復數據刪除技術,面向HP StorageWorks虛擬庫系統提供,用于HP VLS6000/9000/12000
- 動態重復數據刪除技術,內置于HP StorageWorks 磁盤到磁盤備份系統中,用于HP D2D2500和D2D4000
圖4介紹了最新發布的入門級到企業級存儲設備及其重復數據刪除功能。
HP StorageWorks D2D2500和D2D4000備份系統采用了惠普動態重復數據刪除技術。它們的存儲空間范圍是從2.25TB到7.5TB,定位于遠程辦事處或小型企業客戶。D2D2500配有一個iSCSI接口,用以降低遠程辦事處的實施成本,而D2D4000則提供了iSCSI或4Gb光纖通道選擇。
HP StorageWorks虛擬庫系統采用了惠普加速重復數據刪除技術,全部為連接了4Gb存儲區域網的設備,本地用戶容量范圍是從4.4TB到萬兆以上(配有VLS9000和VLS12000 EVA網關)。VLS6000、9000和12000機型提供了硬件壓縮功能,從而實現了更高的容量。VLS9000和VLS12000采用了多節點的架構,支持用戶以線性方式擴展性能。這些設備配有八個節點,能夠以2:1的數據壓縮率支持最高4800 MB/秒的吞吐量,前提是存儲區域網主機能夠以該速率提供數據?;萜仗摂M庫系統將部署惠普加速重復數據刪除技術。
圖4:HP StorageWorks基于磁盤的備份
采用了加速重復數據刪除技術
VLS9000VLS12000 EVA網關
采用了動態重復數據刪除技術VLS6000系列
D2D1000系列D2D2500系列D2D4000系列
簡單易用,成本低
小型企業
iSCSI 入門級機架
較小規模的IT環境或遠程辦事處
iSCSI 大容量解決方案
擁有小型數據中心的中等規模企業
iSCSI或光纖通道 單節點系統
中等規?;虼笮推髽I數據中心
中到大型光纖通道存儲區域網 多模式系統
高性能、可擴展
大型企業數據中心
大型光纖通道存儲區域網
入門級中檔企業級
HP Data Protector軟件和這些有什么關系呢?
現在,HP StorageWorks虛擬庫系統、HP StorageWorks 磁盤到磁盤備份系統及其他供應商的硬件均提供了重復數據刪除功能。
以前曾提到,存儲設備的重復數據刪除功能或者是"嵌入式重復數據刪除"(動態重復數據刪除),或者是"后流程"(加速重復數據刪除)技術。
對于HP Data Protector軟件來說,這兩種方式都是完全透明的。
HP Data Protector高級備份到磁盤許可
從2008年7月1日起,HP Data Protector高級備份到磁盤許可將涵蓋HP Data Protector文件庫和虛擬磁帶庫(VTL)上的計劃/占用容量。
如果HP Data Protector軟件以獨占方式使用虛擬磁帶庫,則建議用戶購買一些與該虛擬磁帶庫物理容量相匹配的高級備份到磁盤許可?;萜諏⑦@種虛擬磁帶庫物理容量稱為"可用本地容量"。其他廠商稱之為"原始容量"。新的物理容量/占用許可不需要考慮壓縮比率和重復數據刪除率,也不需要考慮RAID開銷。
相關的HP Data Protector高級備份到磁盤許可包括:
- 針對1TB備份磁盤存儲的B7038AA容量許可
- 針對10TB備份磁盤存儲的B7038BA容量許可
- 針對100TB備份磁盤存儲的B7038CA容量許可
注:
加速重復數據刪除容量許可針對當前的虛擬磁帶庫系統機型(VLS62xx、VLS66xx、VLS9000、VLS12000)提供。這些許可不屬于HP Data Protector許可計劃的一部分。
驗證虛擬磁帶庫的容量
用于驗證虛擬磁帶庫上已占用或分配磁盤空間的推薦工具是基于web的Command View VLS管理界面。
圖5介紹了Command View VLS管理界面的相關視圖,用于評估虛擬磁帶庫上已分配或占用的磁盤空間數量。
圖5:虛擬磁帶庫系統管理界面
許可示例
虛擬磁帶庫配置
在圖6介紹的示例中,虛擬磁帶庫(VTL)存儲了5TB的受保護備份數據,這些數據由HP Data protector軟件管理。
圖6:虛擬磁帶庫系統許可示例
Cell Manager
磁盤和介質代理程序
存儲區域網
介質代理程序
5TB的可用本地容量
虛擬磁帶庫(VTL)的可用本地容量是虛擬磁帶庫所報告的、全部受保護HP Data Protector備份在虛擬磁帶庫磁盤上所占的容量。
HP Data Protector軟件利用圖6示例中的全部5TB容量,共需五份B7038AA高級備份到磁盤許可。
注:
用戶可使用容量工具套件升級虛擬磁帶庫,以擴展虛擬磁帶庫的可用本地容量。對圖6示例中的虛擬磁帶庫(VTL)的進一步備份操作將會超出高級備份到磁盤的總許可容量,因此需要額外的許可。為了不超出總許可容量,須進行適當的容量規劃。
更多信息
揭開重復數據刪除技術的神秘面紗:http://h71028.www7.hp.com/ERC/cache/49205-0-0-0-121.aspx?bodycontentparams=583627-0-0-0-121&ERL=true
評估重復數據刪除效率:http://h71028.www7.hp.com/ERC/cache/49205-0-0-0-121.aspx?bodycontentparams=587598-0-0-0-121&ERL=true
HP StorageWorks磁盤到磁盤備份系統(D2D):(http://www.hp.com/go/d2d)。
HP StorageWorks虛擬磁帶庫系統(VLS):(http://www.hp.com/go/vls)。
采用重復數據刪除技術的數據保護解決方案:(http://www.hp.com/go/deduplication)