全球網絡存儲工業協會中國技術中心首席技術顧問侯海波

大數據的迷霧籠罩著當前整個業界,IT基礎架構受到的沖擊首當其沖,數據的處理、分析和利用,首先是以數據存儲為基礎的。IBM的智慧存儲戰略,貫穿著化解大數據危機的思想。但IBM的目光不僅僅放在IT業內,而是希望所有的企業、組織,能夠認識大數據并利用技術手段從中獲得“智慧”。

受IBM公司的委托,侯海波在發布會上向包括商業媒體在內的在場人員講解了《存儲那些事》。他表示,應對當前的存儲挑戰,需要采用高性價比的介質和優秀的架構,輔以分級存儲、存儲虛擬化、精簡存儲和重復數據刪除等重要的技術手段。

存儲解決三件事情

從PC普及到互聯網建設高潮,再到如今社交媒體和移動互聯網的高速發展,我們已經置身一個海量信息的時代。侯海波說,信息技術跨入一個新的以信息技 術處理、存儲為核心的時代,這就是信息的存儲??梢钥闯?,存儲幾乎是我們的一個IT架構重心。調研表明,在IT架構里面,一半的預算幾乎都放在了存儲上 面,而過去的重心是計算和傳輸。

存儲技術主要是解決這三件事情:第一,要把信息存好,不管多大的數據,你得存下來;第二,要用好,在我任何時候需要數據的時候能夠很快地找出來;第三,管好,數據一定要管好,一定不能丟,如果丟了,法律可能會找你的麻煩。

侯海波指出,存儲需要很好的載體。以石刻、竹簡、紙張記事,那是存儲的昨天,紙張的發明讓人類文明跨出了大大的一步。然而,當前的存儲技術發展到今天面臨很大的壓力。

存儲三大壓力

第一個壓力是數據量實在太多。在2011年有一個專門的研究機構研究表明:到2007年底的時候存儲的信息是295EB(1EB=1000PB 100萬TB 10億GB 1萬億MB,一張照片大概也就是幾個MB),到現在可能翻了十倍都不止了。要把這些數據全部刻成CD,大概是4040億張,如果全部疊起來,可以從地球到月球。

第二個問題它是爆炸性的增長,有專家給了一個“經驗定律”,是每隔十八個月翻一番,平均每年產生多少新的信息呢?好像是 2000000000000000000000字節。這些數據包括通話記錄、銀行業務記錄、網購交易記錄和微博信息等,Ebay每天產生的數據量是 50TB,Facebook在沒有中國這么大的市場情況下,每天新增的照片量是1PB。爆炸性增長帶來的壓力,就是海量的基礎上還要去海量,數據一多,找起來就比較麻煩,你在一個柜子去找東西和滿房間找東西花的時間是不一樣的。

第三個壓力,這個數據非常重要。重要到你不提供它,你會損失很大,而且會影響到你企業的生存。我們知道9·11事件發生之后,世貿大廈三分之二的企 業都沒有重新開張,不是因為人員的損失和資產損失,而是數據的丟失,不能丟的一定不能丟,要丟的話可能法律會找你的麻煩。另一方面,如果你的數據沒有丟 好,這也給你自己造成麻煩。前幾年有一位陳老師,他可能有一些圖片數據涉及隱私,給自己找了麻煩,他沒有存儲知識,所以從那以后很多知名人士寧愿砸了也不 愿意去維修,可見懂點存儲知識是多么的重要。

應對之道

今天的應對之道,首先我們看一下數據存在什么地方,當然大家可能想到光媒介,有磁帶,但是主流的還是磁盤,1956年的時候IBM發明了第一塊磁盤,當時大概是24寸,100多公斤,數據量是5MB,今天隨便一塊磁盤上到2TB、3TB,也就是說我們的容量已經擴展了100萬倍。但是,不管磁盤多大,在企業應用里面還是不夠的,我們知道電信的磁盤是幾百塊、上千塊才能存得下,怎么把這些磁盤組織起來,存儲更大的容量,這里我們就用到一個技術,一個是外部存儲,把磁盤組織起來放到一個柜子里,這叫磁盤陣列,不光放進去就可以了,還有一個RAID的技術,把這些磁盤組織起來,通過一系列的方式使得我們得到更大的容量來使用,同時性能還提高。舉個例子,一個人假如說只能記100個單詞,如果要記 1000個單詞可以組織10個人,每人記100個,組成一個團隊之后存儲容量就擴大了。如果我要是記100個單詞,第一個人記,其他人閑著,可能我還是需要100分鐘的時間。如果100個單詞來了之后,把它分成10組,每一個人記10個,大家同時記,那么我們10分鐘就可以把數據記下來,這就是說RAID 技術讓我們可以利用廉價的磁盤組成一個大容量的磁盤,當然,它的可靠性也會增加。

介質還不能完全解決問題,我們還需要一個好的架構。早期的存儲,我們是直接把磁盤放到服務器這樣的主機里面,主機和磁盤是密不可分的,在這種情況下,如果我要增加存儲,我需要首先增加主機。后來,我們把磁盤擴展到機箱的外面,組成一個柜子,也就是磁盤陣列,剛開始只能通過一種協議,也就是我說的NAS這樣的連接聯到一臺主機,雖然解決了容量的問題,但是共享的問題、每一臺應用的數據保護問題可能需要分別對待,這是分別進行存儲,后來我們產生了更大容量的企業化存儲,大到可以把企業所有的數據都存在里面,而且有更好的一些通道協議把它聯到很多的主機上面,可以把所有的應用主機聯到一起來,實現了企業數據的統一存儲。在統一的情況下就可以對數據進行統一的管理,比如說備份就很方便了,這個協議最早也是IBM做的。這樣一個架構還不是最方便的,最方便的是網絡存儲,好比大家拿著筆記本電腦,插上網線就可以調用數據了,拔了網線就可以回家了。我們的設想是把所有的主機都列到網絡中來,把所有的存儲都列到網絡中來,大家通過網絡的方式去擴展,新增加了一個業務部門,新增加一個主機就可以了,明天新買一個盤陣,直接接到交換機上就可以了。

剛才講到了內部陣列存儲和外部陣列存儲,這個架構還在用。這是NAS結構,這種方式在應對訪問某個文件時是非常方便的,但是最典型的還是我們構建存儲區域網,這樣的話,我們就像訪問本地的磁盤一樣,雖然你在寫數據時會寫到磁盤陣列里面去。

我們再來看看這些技術,一個是分級存儲。既要保證性能,我需要把數據放在高性能的介質上,為了保存大量的數據,我需要用廉價的存儲磁盤來支持,每一種介質都要用。一個數據隔一段時間不用了,可以自動移到二級存儲上,再不用放到三級存儲上,需要的時候調用到一級存儲上,這個過程是完全自動的。

存儲虛擬化。如果我有很多個磁盤陣列,第一個可能已經快用完了,第二個可能還有很多的空白,在這種情況下,如果我有一個軟件,通過虛擬化管理,把它組成一個大的存儲池,愛怎么用就怎么用,具體寫到哪個磁盤上就由我來控制。

第三個是精簡存儲。大概是這么一個效果:如果你有一塊硬盤是1G,每一個分區給多大的空間比較好呢?這是比較糾結的問題,用了精簡存儲,你可以給每個分區分到最大,哪個用得多就用哪個,直到最后物理空間用完了再去擴展新的磁盤,這是它的示意圖。

最后,我們從源頭上來看,怎么樣通過除掉重復數據。當一個文件來的時候,我首先對文件進行處理,切成小塊,在已經存儲的文件里面去找,如果這塊數據 已經存儲了,我就不會再存了。但是我做一個記錄,在你任何時候需要這個數據,我可以隨時給你組裝出來,這樣的話減輕了存儲容量,對每個數據的訪問也不會有 影響。

存儲的明天

明天有大個特征:一個是大數據,它大到了一定的程度,需要我們存儲技術用特殊的方式或者技術來對待它,大容量需要我們大架構,而且是分布式的技術,需要高的性能,需要更架構、大運維。

第二個是云存儲,有了云存儲之后,我不需要像過去那樣規劃、購買、部署,也不需要長時間運維,我只說我需要容量。提供商需要做的事情,用我們剛才提到的虛擬化架構來管理,進行動態的擴展,可以想像這是一種比較好的模式,這就使IT資源像水和電一樣的公共資源。

未經允許不得轉載:存儲在線-存儲專業媒體 » 專家談存儲那些事 支招輕松應對大數據
分享到

wangzhen

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走