這是為什么呢?
有人說了,這是因為大容量磁盤的容量太大,萬一容量磁盤壞了,Raid重構的時候需要的時間就更長了。
恢復一塊10TB的盤數據,跟恢復一塊20TB的盤,工作量能一樣嗎?
小容量磁盤的重構時間短,對性能壓力小,對業務連續性更有好處。
對業務人員的血壓有好處,對存儲管理員的人身安全有好處。
為了幫存儲廠商安心用上大容量磁盤,還得從技術上解決大容量磁盤重構的難題。
為此,硬盤大廠希捷搞了一個叫ADR(自動容量重生)的硬盤技術,配合ADAPT技術,可將系統重構所需的大幅縮短,最多能縮短95%的時間。
傳統RAID技術下,壞一塊盤需要五十多個小時重構,而現在需要幾個小時甚至幾十分鐘即可。
重構時間縮短,好處多多:系統性能更穩定,對性能影響更小,還能減少恢復過程中可能帶來的二次損壞,比如,恢復過程中又有別的盤壞了。
能縮短95%就很誘人吧,但是,聽著很簡單的技術原理,實際用起來還比較有挑戰。
目前,希捷自家的Exos CORVAULT存儲系統支持,其他存儲廠商,想要用上這一良心技術,還得需要投入一些人力物力才行。
想了解,希捷Exos CORVAULT的神奇之處的話,可以接著往下看。(看完整版視頻)
Part 2:為什么希捷Exos CORVAULT能讓存儲系統用上大容量磁盤?
Exos CORVAULT是希捷的一塊高性能塊存儲系統,雙活架構,5個9的可靠性,還有頗具行業突破性的硬盤故障自愈技術。
4U的空間,裝硬盤之前,空蕩蕩的跟被打劫了一樣。說一個人腿長,脖子以下全是腿。說一個存儲系統容量大,除了風扇全是硬盤。
一個人想插滿硬盤,得需要大概兩個小時,塞硬盤的人嫌時間過的慢,旁邊圍觀的,總忍不住想來幫忙。但凡多一個人,裝盤的過程都會快得多。
插滿之后,2.12PB,容量高到嚇人。106塊的20TB的大容量磁盤滿滿當當擠在一起,壯觀,我是頭一次見到。
這這這,全都是硬盤,這么多磁盤這么高的密度放在一起沒問題吧。
嗯,好問題。
防止因為硬盤發熱,硬盤轉動振動對性能以及穩定性的影響,Exos CORVAUL從控制器到機箱都進行了特別的設計。
硬盤怕噪音的震動,特別是噪音大戶的風扇,這次也被特別針對,希捷開發了一種叫Acoustic Shield的技術,給硬盤提供了非常安心的工作環境。
106塊硬盤老老實實的擺在這里,滿滿的,強迫癥朋友說了,那個角上的是啥?
是控制器啊,本以為這又是基于英特爾至強的控制器。
仔細一看,原來是希捷自己搞的ASIC芯片,ASIC芯片的成本低,性能呢,做的好的話,性能也挺高的。
上圖顯示,順序讀性能是14GB/s,順序寫性能是12GB/s,額外查了一下資料,最高IOPS為17680,磁盤存儲的重點不是IOPS。
今天,性能不是重點,控制器配合ADAPT和ADR縮短磁盤構建時間才是重點。接下來簡單介紹一下。
如圖所示,左面是一張圖片,代表用戶要存的數據。右邊是一堆磁盤,代表CORVAULT存儲系統。
在計算機的視角里,圖片被切成了很多個碎片Shards。右側的硬盤會組成ADAPT池,什么是ADAPT?
ADAPT全稱叫Advanced Distributed Autonomic Protection Technology (ADAPT),直譯為自動分布式分配保護技術,一種希捷專有的替代傳統Raid的技術。
ADAPT池里有一堆硬盤,負責存數據,存什么數據呢?
一種是用戶的碎片Shards數據,一種是CORVAULT的ASIC控制器為用戶數據生成的奇偶校驗(Parity)。
奇偶校驗是干啥的?保護數據用的,硬盤壞了,數據丟了靠它就能找回來。
系統中,奇偶校驗會和數據碎片一起均勻地散布到ADAPT池中的硬盤里。
值得注意的是,數據均勻散布到ADAPT池中的硬盤里的操作,其實就是ADAPT技術(分布式自動保護技術)得名的由來。
眾所周知,磁盤出問題,一般都是劃痕什么的,傷到磁頭或者盤片,出問題時,CORVAULT的控制器能分析磁盤產生的日志,根據日志找出是哪個磁盤的哪個盤片出了問題。
CORVAULT控制器發現問題后,先把壞掉的硬盤放一邊,依靠奇偶校驗數據從其他硬盤中,很快就恢復一份Rebuild Data,也就是壞了的硬盤里的數據。
這些剛恢復來的數據存放在哪呢?也繼續散布到其他硬盤里。
接下來,就輪到ADR上場了。
剛才不是找出了出問題的盤片或者磁頭了嗎,CORVAULT控制器就跟硬盤配合,屏蔽掉出問題的盤片或者盤片對應的磁頭,此時的硬盤容量會縮減。
現在一塊磁盤最多有20個磁頭和對應的盤片,壞了一個之后,就剩下95%了。
磁盤重生后,控制器就跟別的磁盤打聲招呼說,這塊盤又活過來了,把他該存的數據扔給他吧。
于是,一聲令下,一群硬盤都快速把數據還給了它。最后,它又把原來屬于它的數據存起來了,一切又恢復了事故之前的狀況。
問題來了,為什么它的恢復速度快95%那么多呢?
因為,ADAPT技術把奇偶校驗和數據碎片散布到其他硬盤里,恢復的時候,實際是由多個硬盤共同完成操作,而不是靠原來一塊盤干活。
換句話說,一個ADAPT池里的磁盤越多,恢復速度就越快。
頗有韓信點兵,多多益善的意思。
結束語
如此一番操作,地球上就少了一塊壞的硬盤,少了一塊電子垃圾,用戶少買一些硬盤,存儲管理員少開一次機箱蓋子,少拔出來一塊硬盤。
對了,不知道大家注意到了沒有,這場硬盤故障前后,所有操作都是在一臺CORVAULT里完成的,完全不需要外部網絡。
如上圖所示,希捷CORVAULT的集群里,完全沒有因為系統重建時的流量造成網絡的擁堵,系統的性能表現會更高和更穩定。
以上就是存儲廠商在大容量磁盤使用方面的技術挑戰,而希捷能讓存儲系統用上大硬盤這一話題的全部內容。
相關閱讀: