首先,感謝DOIT給這個機會,讓自媒體也可以發出自己的聲音了。因為自媒體的比較少,我今天講的內容還是聚焦我研究的高端存儲架構。大家可能會想到高端存 儲跟大數據好像沒有特別多的關系。我今天講的可能是比較窄的大數據。首先,這是我個人的介紹,我是有一個自己的高端存儲個人的公眾號,每天晚上會寫寫我今 天學了什么。還有一個傳送門網站,它也收錄了我所有的歷史文摘。大家從百度上搜索存儲西瓜哥,在DOIT上搜索西瓜哥也能搜到我的文章。大家如果有什么問 題,會后通過微信平臺,都可以和我溝通。

我講一下我的觀點,我想講高端存儲架構,但是這是大數據的論壇,所以要靠點題。其實也不能說高端存儲和大數據沒有關系,其實大數據業務是一個業務的視角,從 用戶角度看,大數據解決什么問題。一般這個圈子有兩種生態圈,一種是基于Hadhoop這種開源的工具,技術,大數據的存儲,包括它的分析、工具。但是, 企業里面很多人用的也是比較成熟的,比如Oracle、SAP。這么分,其實在商用生態圈,高端存儲其實還是企業里面比較明顯的選擇。我跟公安客戶交流 過,像公安里面很多大數據的業務。高端存儲并不完全是分布式的架構。而且現在大數據這種業務在很多傳統企業,比如銀行的信用信息分析,很多大數據的結果以 后馬上出結果,所以它的業務非常關鍵,對可靠性,對管理業務有比較高的要求。這塊也是高端存儲的長項。

總的來說,看一下大數據對存儲的需求,首先,數據量越來越大,可能一般的數據要達到PB級的量,美國那邊的一些調查,一般企業管理的數據量,一般1T左右。 第二、有良好的性能,因為這是關鍵業務,需要實時分析,需要有很好的帶寬,這是它對存儲的訴求。用得起,這是開源打存儲最重要的地方。管理問題,數據量變 大了,傳統的管理方法已經不能進行管理,里面有很好的管理方式,你存進去,可能管理的更加復雜。大數據大量是非結構化,或者半結構化的數據,你存儲能不能 支持更多的結構。

講一下高端存儲,我個人對高端存儲怎么理解,比如IDC的報告會寫高端存儲,比如2014年Q1下降了22%,市場不好,份額在下降,性價比不好。這塊告訴你 什么意思?它是廣義的高端存儲。在IDC的眼里是按價錢分的,他說什么叫高端?技術上很難定義,技術發展更快,原來說這要多功能架構,才能 定義高端?,F在很難定義高端,IDC說拿錢來說。比如他分十個檔次,一個存儲的朋友售價。也就是平均售價是比較貴的,它認為是高端,就是十萬美金以上。

講一下Gartner的觀點,Gartner是走技術派,用一些具體的參數定義高端存儲的范圍。Gartner3月7號發布了最新的高端存儲的研究報告,其 實它最新的版本已經發布了,跟這個差不多,它刷新了一下,排名基本變化不大。他認為高端存儲從幾個技術指標去理解。一個是單部件失效對主題不可見。第二個 如果是你這個單部件失效,存儲有什么部件壞了,對主機性能可能少于25%。也就是它想象中,應該失控一下這個架構。如果大修的時候,允許你有一半的性能損 失。還有下面細的一些條款,比如支持負載均衡,遠程復制,這些其實不是非常本質的區別。他認為這樣的存儲,它的成本是在25萬美金起,這是Gartner 的定義。

Gartner的定義里面,還對高端存儲進行了一個打分,對目前這個市場他認為符合他定義的高端存儲進行打分。他分了8個功能向,包括管理、可靠性、性能、復制、擴展 性、生態系統、多租戶和安全、還有存儲的效能等。上面有六個應用,有五大場景,每個場景對8個功能向的比重是不一樣的。我們看到它比較看中的幾個指標是管 理性和性能,還有快照復制,這是Gartner的分析師在這個場景下比較看中高端存儲的特性。

HDS對所有的產品進行打分,他認為這個市場有12個產品符合它的標準。通過分析這些排名,我們可以看到,基本上是國外廠商,國內有一家是華為。第一個是日立的 高端存儲及第二個也是日立的,第三個是惠普的。如果看總的排名是這個,不止分析這個場景,把所有這些結合起來。其實Gartner還對存儲廠商市場的能力 做了評估,前面評分主要針對技術水平和產品的技術能力,下面零分主要針對產品的生命力,包括市場的水平,市場的銷售,我們看到這個里面得分最高的是 EMC,EMC生態環境比較好,整個銷售能力比較強。第二、比較多了,優秀的廠商,包括日立、華為。大概是這樣的一個圖形。

我個人研究的高端存儲主要是畫紅線的這一塊,因為它首先是面向傳統的高端存儲的市場。第二、在執行報告里面可以抽它的數據拿出來給大家分享。因為有些數據, 它賣兩部,賣四部看不出來,因為統計不了那么細,所以我暫時沒有列多方面報告里面去。像狹義的高端存儲范圍里面,我們看到在全球來看,剛才我畫紅線的高端 存儲,中國其實只占4%的市場份額,也就是這個市場,45%以上還是占你們那邊,中國這邊高端存儲市場感覺很多地方會被閃存,軟件定義搶掉它的份額,但是 我覺得還會有前進的空間。第二、看一下全球的排名情況。EMC在這塊最高有一個份額,41%,第二、IBM五,后面就是日立惠普,華為在比較小的氛圍。

中國區的數據,原來HDS是第一,這兩年EMC超過HDS。這方面沒有什么特別大的變化,有一個比較大的區別就是這里可能看到華為上升的比較快一些。從行業緯度可以看,這個行業主要用在金融里面,第一是電信,第二是政府。到今天金融是最難做的,因為它的要是性比較高。

高端存儲我們講它的歷史,它的架構是怎么演變的?特別是對大數據這個架構怎么演變的?我講到兩個人,一個是做大型機的吉恩·阿姆達爾,其實真正把存儲做成一 個行業的,應該是摩西·亞奈,他1990年研發了Symmetrix,推向市場,大家知道存儲里面也是吸引高端存儲。摩西·亞奈離開EMC又做了XIV。 后來被IBM收購,后來他又開創了第三代存儲,Infinbox,現在市場上都有他的三個產品。

高端存儲的歷史,講一下它架構上的一些變化。1956年發明大機,配套存儲,1980年還是IBM用的存儲,還是很貴,百萬美金起,當時是IBM自己專用的 大硬盤。1988年IBM有一個項目,沒有廣泛的推向市場,真正推向市場的是就是第四版的摩西·亞奈提出的技術。日立也開發了跟EMC類似的架構存儲,這 種架構存儲為什么要轉型,也是因為影響。當時EMC出來,IBM的銷售受到它的影響。其實日立剛開始的時候做的是IBM大型機和存儲。從1995年的時 代,三國鼎立階段開始了。直到1999年,IBM也開始擁抱普通的硬盤。

IBM這個時候里面后的研究還是用它自己的標準。這也是我現在重點要看的發展的東西。2000年的時候日立的產品第一次把交換技術引入,現在很多人認為高端存儲 是完美的架構。2002年3Par的出現,3Par被惠普收購。2003年EMC推出DMX系列架構,也取得了市場的成功。2004年DS8000出來, 這是IBM經典的架構。2005年摩西·亞奈推出XIV,2007年被IBM收購。2006年整個互通了。2009年EMC推出VMAX,2012年5越 發不VMAX  40K。其他的架構上沒有太大的變化。最后,就是2012年華為發布了自己的個人存儲,架構比較像EMC的架構,但是它底層的東西有點像虛擬化的架構,同 時它本身交換技術更多學這個東西。因為它是SaaS的后端,跟交換技術用的差不多。所以說它借鑒了前面的一些特點,開發了自己的高端存儲。

整個高端存儲,這種架構,從總線式,到Crossbar架構,還有2003年高了直連架構,但是后來發現擴展性不是特別好,因為聯線密密麻麻,再加一個節 點,不太好擴展。所以,2009年有了虛擬矩陣架構,還是利用交換機。主要有四個特點,這可能跟現在大數據的驅動有一些影響。一個是Scale-out為 的架構,但是你發現數據量現在越來越大,Scale擴展已經不夠了,所以必須把Scale的架構加上,增長快比較快。還有全交換的架構,還有 X86,X86架構給客戶帶來的好處就是成本,性價比,這是大數據里面我們要追求的。松偶合比如它會降低用戶的成本,松偶合有什么好處?你看到民的一個架 構,它每個節點有點像一個終端村素,通過低時延把這些高端存儲連在一起。

最后講一下這幾個存儲廠商,針對大數據時代下做出一些變化。這是跟我們傳統的高端存儲不太一樣。一個是EMC之前發布的產品VMAX3,它可以做到5000 多張硬盤,可以支持16TB的Cash,也就是針對這個云時代,大數據時代,如果不考慮成本的情況系,它遠遠滿足大部分企業的需要,除了互聯網企業。所 以,大數據應該也是一個核心的大數據的平臺。

為了降低成本,為了降低功耗,為了降低機房的面積,EMC引進Highly  Efficient的設計。第二、講一下惠普的一些變化?;萜粘杀镜淖非笊弦沧龅谋容^好,比如它是業界第一個提供精簡配置功能的。也是第二個在重刪功能的 廠商。我們大數據以后存在上面,有數據的壓縮技術,像成本,單位成本會下降,他也是第一次支持cMLC的廠商??梢耘浜祥W存價值,可以降低整體成本。 IBM  DS8000有快照復制的功能,大家知道在大數據場景下,備份備不完,需要用快照復制的方式管理它的平臺。

日立的HDS  VSP  G1000,大數據不僅僅有結構化的數據,非結構化的數據,它要保存這些數據,把NAS做進來,但是做的并不是特別徹底,只是管理界面上融合了,物理上不 是特別融合??匆幌翴NFINIDAT公司開發的InfiniBox,把對象存儲,文件存儲,Trade存儲全都放在一個系統里。

為了拒絕更低的成本,富士通出了一個CD10000,用開源的技術做了一個高端存儲,給客戶帶來比較低的成本,但是企業為什么改用開源,主要是技術沒有支 撐,這彌補了技術和成本的概念,這也是未來的方向。我們看到很多開源的存儲也會出來,大家都在嘗試應對大數據架構的變化。

管理方面是大數據很重要的一個方面的要求,這塊IBM做的比較好,特別是XIV,它有底層的架構,比較特別,所以它的管理做的特別好。很多東西通過限制了其他的一些功能,就自動優化了,這是它的一個理念,管理非常簡單,特別是公安里面有用這個產品。

華為強調性能,是第一個高端存儲里面測SPC-D這么一個值,超過100萬的IOPS是用OceanStor測的。富士通也是一個性能,但是它強調的是帶 寬。富士通的架構后面搞了一個SAS的連接,任何一個節點可以看到任何一塊硬盤,所以富士通的特點有很多SAS。它的帶寬的能力比較強。

總結來說,為什么大數據場景下,高端存儲它努力爭取它自己的地位,因為確實有它對大數據的一些支持。首先,在比較成熟的商業環境下用。第二、能提供企業級別 的支持,買高端存儲,服務都是廠商服務的。第三、高端存儲在關鍵業務支撐的聲譽是最好的,現在很多大數據的業績已經是關鍵業務了,不像一線大數據業務都是 事后分析,現在是適時分析。第四、通過前面的一些變化,性能強大、管理簡化。同時,它與時俱進的一些特點,比如X86的架構,Scale-out技術的采 用,包括重刪,引到高端存儲里面,還有開源技術,把存儲Hypervisor,高密、統一存儲、集群、cMLC。這樣可以跟數據結合的更緊密。我的觀點就 是作為一個企業用戶,可能高端存儲還是在大數據比較強勢的選擇。謝謝大家!

未經允許不得轉載:存儲在線-存儲專業媒體 » 西瓜哥:大數據時代下的高端存儲架構演變
分享到

bruce

道由心悟,豈在坐也

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走