圖一  LZ77算法示意圖

數據壓縮的應用可以顯著降低待處理和存儲的數據量,一般情況下可實現2:1 ~ 3:1的壓縮比。

重復數據刪除

在備份、歸檔等實際的存儲實踐中,人們發現有大量的重復數據塊存在,既占用了傳輸帶寬又消耗了相當多的存儲資源:有些新文件只是在原有文件上作了部分改動,還有某些文件存在著多份拷貝,如果對所有相同的數據塊都只保留一份實例,實際存儲的數據量將大大減少–這就是重復數據刪除技術的基礎。

這一做法最早由普林斯頓大學李凱教授(DataDomain的三位創始人之一)提出,稱之為全局壓縮(Global Compression),并作為容量優化存儲(Capacity Optimized Storage, COS)推廣到商業應用。目前,除了DataDomain等專門廠商外,各主要存儲廠商如EMC、IBM、Symantec、FalconStor等等也都通過收購或研發等途徑擁有了各自的重復數據刪除技術,有的還并冠以別名,如單示例存儲(Single Instance Repository,SIR)等。

重復數據刪除的實現由三個基本操作組成,如圖二。首先,待處理數據(文件)被分割成固定或可變大小的數據塊,同時生成一張"結構圖"顯示這些數據塊怎樣組成完整的原數據(文件);然后計算各數據塊的"指紋"(標識),并根據"指紋"確認該數據塊是否與其它數據塊相同;最后,丟棄重復出現的數據塊,并將"結構圖"作為原始數據(文件)存儲。

 

圖二  重復數據刪除原理

重復數據刪除技術的關鍵在于數據塊"指紋"的生成和鑒別。數據塊"指紋"是鑒別數據塊是否重復的依據,如果不同數據塊的"指紋"相同,就會造成內容丟失,產生不可恢復的嚴重后果。在目前的實際應用中,一般都選擇MD5或SHA-1等標準雜湊(hash)算法生成的數據塊的摘要(digest)作為"指紋",以區分不同數據塊間存在的差異,從而保證不同數據塊之間不會發生沖突。但是,MD5,SHA-1等算法的計算過程非常復雜,純軟件計算很難滿足存儲應用的性能需求,"指紋"的計算往往成為重復數據刪除應用的性能瓶頸。

目前,各廠商對各自重復數據刪除技術的效用都有不同描述,一般都聲稱能將數據量減少到原數據的3% ~ 5%,即具有20:1 ~ 30:1的壓縮比。

數據壓縮和重復數據刪除技術都著眼于減少數據量,其差別在于數據壓縮技術的前提是信息的數據表達存在冗余,以信息論研究作為基礎;而重復數據刪除的實現依賴數據塊的重復出現,是一種實踐性技術。這兩種技術具有不同層面的針對性,并能夠結合起來使用,從而實現更高的數據縮減比例(40:1 ~ 90:1)。需要注意的是,如果同時應用數據壓縮和重復數據刪除技術,為了降低對系統的處理需求,通常需要先應用數據刪除技術,然后再使用數據壓縮技術進一步降低"結構圖"和基本數據塊的體積。

在歸檔應用中,存儲的數據主要是文件在不同時間的各個歷史版本,版本間的差異通常并不是很大,文件中往往有相當一部分內容并未發生改變,重復數據刪除技術因而具有較大的應用空間和效能;同時,作為有特定意義的文件內容,使用數據壓縮技術通常也可以獲得2:1以上的壓縮比。因此,針對歸檔應用,集成重復數據刪除和數據壓縮技術將可帶來顯著且可以預期的好處,實現90%以上的整體數據量縮減。

需要注意的是,由于數據壓縮和重復數據刪除技術都系統處理能力有較高要求,為了保證整體性能,在預算允許的范圍內,應該注意選擇具有相關硬件加速的方案。目前,市場上能夠同時具有壓縮和雜湊算法的解決方案并不多,主要由LZS算法的專利擁有者Hifn, Inc提供。除了常見的標準加密和摘要算法,Hifn的安全處理器和相應加速卡基本都集成有壓縮處理能力,提供20MB/s ~ 250MB/s的處理能力。最近還專門推出了DR 250/255數據縮減加速卡,通過PCI-X和PCI-Express接口為存儲系統提供250MB/s的數據壓縮和摘要計算加速,并能夠同時進行加密或解密處理,使系統能夠在實現數據縮減的同時,提高對數據的保護級別。據稱,Hifn下一代數據縮減產品處理能力將達到1.6GB/s,并支持IEEE P1619/1619.1標準的磁盤/磁帶加密,計劃將于今年下半年正式推向市場。

未經允許不得轉載:存儲在線-存儲專業媒體 » DoSTOR專家觀點 數據歸檔中的縮減技術及其應用
分享到

dostor

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走