存儲專欄:一句話說清RAID 2.0

西瓜哥 發表于:13年08月27日 14:24 [原創] 存儲在線

  • 分享:
[導讀]今天,西瓜哥來談談高端存儲的一股勢力,RAID 2.0,最近被華為HVS搞得風生水起,神奇的讓人摸不著頭腦。我還是從一個高端存儲的江湖說起吧。

存儲在線專欄文章:今天,西瓜哥來談談高端存儲的一股勢力,RAID 2.0,最近被華為HVS搞得風生水起,神奇的讓人摸不著頭腦。我還是從一個高端存儲的江湖說起吧。

據說很久很久以前(別扔臭雞蛋,講故事都是這樣的…),L國王有個美麗的D公主(代表數據庫DB),特別喜歡吃西瓜果盤(代表主機看到的LUN),飯量驚人,一次可以吃2個。D公主吃水果有一個懶習慣,就如泰國人一樣,水果都是切成小塊(Extend)后拼成果盤(LUN),用牙簽吃。D公主還有一個小脾氣,這個果盤如果有一小塊是壞的,就整個果盤扔掉(代表數據丟失)。L國王特別寵愛D公主,找了EMC/IBM/HDS來做長工,專門負責做果盤。瓜地和宮殿有一段距離,他們每天都摘3個西瓜,2個用來吃,1個用來備份,萬一那個瓜壞了就補上(代表RAID 5)。就這樣,他們每天辛苦在宮殿和瓜地奔波,碰到壞瓜還得回去瓜地拿備瓜(重構),非常辛苦。D公主一天天長大了,飯量也越來越大,瓜也越來越大。但問題來了,每次碰到壞瓜,他們去搬備瓜需要10個小時,因為西瓜太沉了,路上走不快。D公主后來受不來了,讓L國王把他們撤了,換成了3PAR和HW,3PAR和HW比較聰明,他們想,為什么我到宮殿再切瓜呢,我可以每個瓜切成20大塊(Chunk),找20個人搬到宮殿后再切小塊(Extend)后拼成果盤(LUN)不就可以了嗎?到宮殿后如果發現瓜壞了,派人回來拿1小塊換上不就可以了嗎?這樣需要搬的瓜只有原來的1/20,瓜輕了,路上可以跑,因此就算瓜壞了,半小時也就換回來了。D公主很滿意,日子相安無事,直到有一天HW加班病倒了,而3PAR正好和HP談戀愛請假了,無奈找了個年輕人叫XIV做臨時監工,這家伙比較浪費,每次都挑4個瓜,在瓜地全部切成小塊(Extend),找一群小孩直接送給宮殿。對于D公主當然好了,但每次也只能吃一半,另外一半就倒掉了,很是可惜。后來XIV由于長得漂亮,被IBM包養,這是后話。

好來,故事講完了,大家知道RAID 2.0是怎么回事了吧?還扔臭雞蛋,別,我來好好給大家講一講,剛才是講故事呢。

大家知道,傳統的RAID 5過程是這樣的:

選幾個硬盤—》做成RAID 5—》根據容量創建LUN—》映射給主機(為了方便,我們稱這個為RAID 1.0吧)

話說當時主流的高端廠商,EMC/IBM/HDS全是這個方案。這種方式就是如果有盤壞了,只能這個磁盤組的硬盤參與重構。當時的硬盤一般都是幾十G,而且全部是FC磁盤,問題并不嚴重。

但是現在高端都引入了SATA磁盤,現在的西瓜,不對,是硬盤越來越大,因此,當一塊硬盤壞了,只有這幾塊硬盤參與重構,重構的時間1TB需要10小時,如果是4TB的SATA盤,更加不可想象。

除了重構時間外,RAID 1.0還有一個大問題,就是性能。一個LUN的讀寫只能在一個磁盤組進行,讓后面加入的SSD等新的介質發揮不了作用。但EMC/IBM/HDS在RAID 1.0已經積累了十幾二十年,RAID又是所有軟件的基礎,他們輕易不敢重寫代碼。怎么辦?

有了,可以把多個RAID組再組成一個池,再切一次(條帶化):

選幾個硬盤—》做成RAID 5—》選多個RAID 5組成一個池—》切分為相等的小塊Extend—》選擇Extend組成LUN,映射給主機(為了方便,我們稱這個為RAID 1.5吧)

RAID 1.5很好地解決了性能的問題,因為一個LUN的讀寫同時跨越了很多的硬盤,而且這個LUN里面可以包含多個RAID組,也就可以有多種磁盤介質,可以做到自動分層存儲。但是,由于RAID組還是基于硬盤的,這塊硬盤壞了,只有一個RAID組的幾個硬盤參與重構,因此重構速度依然和RAID 1.0一樣。

3PAR和華為,歷史包袱不大,因此采用塊的虛擬化技術RAID 2.0來解決這個問題(3PAR內部叫FAST RAID)。RAID 2.0的思路就是,在做RAID前先切幾刀,把西瓜(別打了,玩游戲玩多了不行嗎),哦,是硬盤切成很多的相等大塊(Chuck),然后以Chunk為單位來做RAID 5(形成CKG),然后再把CKG切成更小的小塊(Extent),隨機或者按照一定規則抽取很多的Extend組成LUN,映射給主機。

選所有個硬盤—》全部切成做大塊Chuck—》以Chuck為單位做成RAID 5(CKG)—》把CKG切分為相等的小塊Extend—》選擇Extend組成LUN,映射給主機(這個就是RAID 2.0)

RAID 2.0由于RIAD的單位是大塊Chunk,因此當一個硬盤故障,和這個硬盤相關的MINI RAID組(CKG)牽涉的硬盤都參與重組,同樣的數據量,干活的人多了,肯定就快了。

這就是RAID 2.0的本質。

一句話,如果基于硬盤來做RAID,就是RAID 1.0,如果基于硬盤的大塊Chunk來做RAID,就是RAID 2.0。

至于IBM XIV,他不做RAID,把所有硬盤全部切為1MB大小,利用偽隨機算法在不同的節點間保留2個拷貝(有點像RAID 10),因此硬盤故障恢復時間和性能和RAID 2.0是一樣的,只是容量利用率最多只有50%,因此我們就稱為"RAID 2.0-"把。至于華為為什么叫"RAID 2.0+",據說是基于RAID 2.0上有很多增值的功能,也不知道我的解釋是否正確。當然,華為的RAID 2.0比3PAR的切的硬盤大塊Chunk更小,因此靈活性和隨機分布性更好些。

不知道我這么一說,大家了解Raid 2.0沒有,了解了就轉發給其他需要了解的人吧。

[責任編輯:西瓜哥]
考慮到EMC VMAX2很可能基于VNX2平臺構建,特別是VNX2的最高型號VNX8000。正好,我網上找到一份VNX8000的售后文檔,我們來劇透一下EMC VNX2這個產品的一些細節。
官方微信
weixin
精彩專題更多
華為OceanStor V3系列存儲系統是面向企業級應用的新一代統一存儲產品。在功能、性能、效率、可靠性和易用性上都達到業界領先水平,很好的滿足了大型數據庫OLTP/OLAP、文件共享、云計算等各種應用下的數據存儲需求。
12月15日,中國閃存聯盟成立,同時IBM Flash System卓越中心正式啟動
DOIT、DOSTOR、易會移動客戶端播報中國存儲峰會盛況。
 

公司簡介 | 媒體優勢 | 廣告服務 | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯系我們 | 會員注冊 | 訂閱中心

Copyright © 2013 DOIT Media, All rights Reserved.

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走