數據存儲產業服務平臺

存儲分析:針對主存儲的重復數據刪除技術

你將了解到:本文討論的是針對主存儲的重復數據刪除技術。當你針對你的主存儲進行重復數據刪除時,無論你使用的是聯機重復數據刪除還是后處理重復數據刪除,它都會檢查你應用的數據選擇標準,而且重復數據刪除將會對你的數據存儲環境產生影響。

重復數據刪除已經成為一個熱門話題,而且在基于磁盤的備份和歸檔中是一種非常普遍的做法。用戶最初的戒心已被應用取代,并且對技術的深度關注開辟了更多的途徑來利用重復數據刪除帶來的好處。針對重復數據刪除的下一個前沿領域主存儲。

什么是主存儲?

主存儲由集中存儲區域網絡(SAN)或者網絡附屬存儲(NAS)陣列上的磁盤驅動器(閃存驅動器)組成,主要用來進行日常業務的數據存儲。這主要包括結構化數據,例如數據庫,和非結構化數據,例如電子郵件數據、文件服務器數據和大多數文件類型的應用程序數據。弄清這點區別是非常重要的,因為不是所有的數據都適合主存儲重復數據刪除。

重復數據刪除技術的類型

有兩種主要的重復數據刪除技術:聯機和后處理。聯機重復數據刪除技術在對磁盤進行寫入過程中對數據進行辨識。后處理重復數據刪除技術是在數據被寫入磁盤后進行。聯機重復數據刪除被認為在整體存儲方面更加有效,因為非唯一的或者重復的數據塊在被寫入磁盤之前就被刪除。由于重復的數據塊被刪除了,所以你不需要分配足夠的存儲空間為后來的重復數據寫入整個數據集。然而,聯機重復數據刪除要求更多的處理器能力,因為它“一直在進行”,這會潛在的影響存儲性能,在實施主存儲重復數據刪除時這是一個非常重要的考慮因素。另一方面,后處理重復數據刪除并不會立即對存儲性能產生影響,因為重復數據刪除可以被安排在數據被寫入磁盤后發生。然而,與聯機重復數據刪除技術不同,后處理重復數據刪除在它通過重復數據縮減之前,需要分配足夠的有效數據存儲來裝載整個數據集。

為主存儲重復數據刪除選擇數據標準

你怎樣決定哪一種主存儲數據適合進行重復數據刪除呢?這就是結構化和非結構化數據發揮作用的地方。一個數據庫文件可以是一個非常大的文件,經常被順序和隨機的讀寫。因此,大多數這種數據被認為是活躍的。這意味著處理任何與重復數據刪除相關的開銷可能顯著影響的I / O性能。相反,如果我們檢查一個文件服務器上的數據,我們會很快的發現,只有一小部分分區的文件被寫超過一次,而且通常發生在它們被創建后的很小一段時間內。這意味著非結構化數據的很大一部分是很少被訪問的,使之成為重復數據刪除主要的候者。這就可以基于上次訪問時間戳制定重復數據刪除策略。針對虛擬服務器或者桌面環境的共享存儲也為重復數據刪除提供了很好的機會,因為許多操作系統文件不是唯一的。

其他的數據選擇標準包括格式化類型和數據保存類型。加密數據和一些鏡像或者流視頻文件因為它們的隨機性,進行重復數據刪除的結果將會很差。此外,數據必須保存在存儲中一段時間以產生足夠多的重復塊使得進行重復數據刪除的操作是有意義的。瞬態數據,只是在短期內駐留在主存中,例如消息隊列系統或者臨時日志文件,應當排除在外。雖然歸檔數據會產生最佳的重復數據刪除比率,但是此種數據類型不適合我們在主存儲重復數據刪除中討論。

聯機重復數據刪除技術VS后處理重復數據刪除技術

比方說,你已經排除加密的數據,視頻流和瞬態數據,并且已經制定好規則,以確定“上次訪問”時間和保留類型。你已經確定了的主存儲是非常適合重復數據刪除。到了決定你將選擇聯機重復數據刪除還是后處理重復數據刪除的時候。有能力進行重復數據刪除的文件,一旦它們失效或者有一段時間沒有被訪問,進行后處理重復數據刪除優于聯機重復數據刪除,因為只有被選擇的數據在較后的時間基于具體的條件可以進行重復數據刪除,并且在被寫入磁盤之后。請記住,這與聯機重復數據刪除相反,當它們被寫時,聯機重復數據刪除將處理所有的數據,而且會影響某種類型數據的性能。雖然聯機重復數據刪除即時處理所有數據,但是應用在主存儲上時并不總是一個差勁的選擇。它只是意味著存儲分層——確定在你需要最佳的性能——在決定對主存儲應用重復數據刪除技術之前這是至關重要的第一步。

不是所有的數據適合都你的主存儲

需要頻繁訪問并且需要最佳寫性能的數據不適合進行重復數據刪除。數據的格式可以存儲在無重復數據刪除功能,低性能磁盤陣列上來降低成本,因而這樣的數據難以進行重復數據刪除。其他的不需要經?;蛘吒咝阅茉L問的數據(例如應用程序或者用戶文件)可以存儲在有重復數據刪除功能的主存儲陣列上。

未經允許不得轉載:存儲在線-存儲專業媒體 » 存儲分析:針對主存儲的重復數據刪除技術
精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走