數據存儲產業服務平臺

存儲分析:RAID技術走向何方?(上)

RAID技術走向何方?(下) 

自1989年以來,RAID(獨立磁盤冗余陣列的縮寫)技術一直是磁盤系統數據保護的標準。在用戶眼中,RAID是一種成熟、可靠的解決方案,也被視為數據存儲的基礎技術。那些基本的RAID概念很多年都不曾改變過,仍然十分流行,也有眾多的用戶。但事實上,RAID技術正在潛移默化的進行著自我更新。

在深入分析為什么傳統RAID技術可能被替代之前,我們需要了解一些關于RAID的知識,以及一直以來與這門技術相關的問題。

進入21世紀之后,傳統RAID技術暴露的問題

使用RAID是為了在磁盤出現故障的情況下保護數據。當故障發生時,根據用戶使用的RAID類型,(一個或多個)故障磁盤上的數據會通過校驗值計算或者從鏡像盤拷貝的方式重新生成。在各類存儲介質中,磁盤設備由于采用了電機驅動,因此故障率最高,平均無故障時間(MTBF)指標也最低,因此磁盤保護技術至關重要。

根據IDC、Gartner和ESG等市場分析公司的預測,數據存儲的需求在快速增長,每年的增速介于50%到62%之間。因此,企業需要使用大量的磁盤以滿足數據增長的需求。從統計學的角度來說,磁盤數量越多,出現故障的可能性也越高。目前,磁盤設備制造商仍然在不斷地增加單位存儲密度,現在我們已經有了2 TB的SATA磁盤,而4TB的高容量磁盤也可能在2010年底出現。即便是高性能的SAS和光纖通道磁盤,也在向單盤容量600 GB發展。當使用這些高容量磁盤進行數據重建的時候,傳統RAID的弱點會立即顯現出來。

每種RAID類型都會在寫性能、讀性能、數據保護級別、數據重建速度、以及磁盤實際可用容量之間尋求平衡。如果優先考慮數據的可用性保證,那么就需要鏡像或者多重鏡像(RAID 1,10,三重鏡像等等),由于在其他磁盤上有完整的數據副本,所以數據的保護和恢復都比較簡單。當然,使用這種RAID類型需要付出高昂的硬件成本,因為每份鏡像數據都需要消耗與原始數據相同大小的可用空間。此外,每個鏡像都需要消耗系統資源,也會影響I / O性能?,F實情況是,大多數企業并不會使用這種昂貴的鏡像保護模式,他們更傾向于使用RAID 5或RAID 6。

在RAID 5的設置中,當有磁盤出現故障時,備用磁盤會取代故障磁盤的角色,系統隨即在備用盤上重建數據。系統會讀取 RAID組中每一塊磁盤上的每一個扇區,來重建數據。在重建的過程中,繁重的讀寫操作很可能引起RAID組中其他磁盤出現錯誤(通常是無法恢復的讀錯誤),而這個概率將比平時高一個數量級,數據出現錯誤的可能性大大增加。在10年或20年之前,那時候磁盤的容量還很小,重建RAID只需要幾分鐘的時間。但是隨著普通磁盤的容量達到TB這個數量級之后,重建RAID可能需要花費幾小時、幾天甚至幾個星期的時間。RAID重建會導致應用系統整體性能下降,如果用戶不能容忍這一點,而把重建工作的優先級調低的話,重建的時間還將明顯延長。越長的重建時間,也就意味著數據丟失的風險越高。正因為如此,很多存儲系統廠商都在加緊提供對RAID 6的支持。

RAID 6以雙重條帶校驗的方式來保護數據,即使RAID組中有兩個磁盤損壞或者出現不可恢復的讀錯誤,系統也可以應對。數據丟失的風險大幅降低,但是額外的校驗條帶也將消耗掉更多的可用存儲容量。而且,當一個RAID組中同時有兩塊磁盤需要重建的話,系統性能將受到嚴重的沖擊。更麻煩的是,在RAID 6重建過程中,如果有第三塊磁盤失效或者出現不可恢復的讀錯誤,數據丟失的風險將大大增加。

傳統RAID還有其他的問題,比如磁盤經過長期的背景輻射、磨損,以及受到灰塵影響等因素,會出現“位元物理衰減”的情況,這也可能導致數據重建失敗。大多數存儲系統都內建各種類型的后臺掃描功能,能夠在不可恢復的錯誤發生之前讀取、校驗并修正“位元物理衰減”,但這需要消耗系統資源。而且,存儲容量越大,也就意味著需要的時間越久。

還有一個問題是,RAID系統需要為發生故障的那個磁盤記錄一系列的關聯信息, 包括跟蹤故障磁盤的位置、相關數據、數據位置、數據產生時間等信息的痕跡,這個時間周期從故障磁盤被拔出那一刻開始,一直到RAID組被修復(或者RAID組被毀壞)。這是一個冗長乏味的過程,如果是加密的磁盤,則還需要復雜的手工操作。更令人沮喪的是,我們發現絕大多數返廠檢測和維修的“故障”磁盤(比例在67%到90%之間)根本就是完好無損的,或者沒發現有任何的故障。在經歷了一系列令人心煩的操作(系統發現磁盤錯誤,拔出磁盤,數據重建,記錄維護信息)之后,才發現磁盤根本沒有問題,那真是太糟糕了。

如果用戶使用SSD固態盤,那么上述問題會更加嚴重。固態盤具有非常高的性能,它會取代存儲系統中原有的高性能磁盤。NetApp公司首席執行官Tom Georgens最近指出:“需要快速訪問的數據將保存在閃存中,而其它數據放在SATA磁盤里。”因為容量的原因,我們不得不增加高密度、低性能的磁盤,而且會越來越多。面對這一趨勢,傳統RAID技術暴露的問題越來越多。所以,從某些方面考慮,前期在存儲系統上花費的采購成本和維護成本越低,最終需要付出的維護成本可能越高。

傳統RAID技術的問題,激發了眾多存儲廠商、學術界人士和企業家們紛紛提出傳統RAID技術的替代方案。我們將這些創新歸為三類:1、以RAID為基礎的創新;2、以RAID為基礎的改進;3、放棄RAID,追求全新的(數據保護)模式。

以RAID為基礎的創新

為了解決傳統RAID技術中存在的問題,幾家公司采取了循序漸進的方法,在利用RAID技術可靠性的同時,取消了原來一些的折中設計。IBM的EVENODD技術(由EMC公司在其Symmetrix DMX系統上實現)和NetApp的RAID ? DP技術(由NetApp公司在其FAS和V系列產品上實現)都是通過減少算法開銷的方法,從而提升了RAID 6的性能。

NEC公司的RAID-TM技術(也稱為三重鏡像技術,在其D系列存儲系統上實現)旨在解決RAID 1的數據丟失風險問題–即RAID1的主磁盤和鏡像磁盤都發生故障或者出現不可恢復的讀錯誤。RAID-TM技術會同時向三個獨立的磁盤寫數據,在三重鏡像磁盤組中,即使有兩個磁盤出現故障或讀錯誤,應用程序仍然可以訪問它的數據,而且性能也不會下降,甚至在磁盤重建的時候也是一樣。RAID-TM的優點是性能出色,缺點是需要消耗更多的可用存儲容量。

RAID-X是IBM XIV存儲系統上的創新技術,它使用“更寬”的條帶(stripe)優化RAID,在性能和數據丟失風險之間尋求新的平衡。RAID-X基本上是RAID 10的一個變種,它使用智能的風險控制算法,將鏡像的數據塊隨機分布于整個陣列上。使用這種方法,XIV可以在30分鐘之內完成2TB大容量磁盤的重建數據。如同其他所有的鏡像技術一樣,它的代價也是可用容量損耗比較大。

Pivot3公司、以及被惠普收購的LeftHand Networks公司在其基于x86集群平臺的iSCSI存儲系統上都提供一種變種的“網絡RAID”技術?!熬W絡RAID”充分利用了RAID的概念,但它以存儲節點作為基本的組成單元,而不是磁盤。根據不同的“網絡RAID”級別,它能夠以邏輯卷為單位,將一到四份鏡像的數據塊分布于集群之上。實時的塊級節點狀態檢測自愈功能使得“網絡RAID”可以在節點之間拷貝并修復數據,在錯誤發生之前將隱患排除。這樣做可以降低因磁盤故障或不可恢復的讀錯誤導致的數據重建的幾率(數據重建操作對系統性能影響非常大)。如同其他所有的鏡像技術一樣,它也減少了存儲系統的實際可用容量。

上面提到的以RAID為基礎的創新技術僅僅是一部分,其他正在孕育中的技術提案包括RAID 7(三重或多重奇偶校驗)或TSHOVER(三重奇偶校驗)。

未經允許不得轉載:存儲在線-存儲專業媒體 » 存儲分析:RAID技術走向何方?(上)
精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走