數據存儲產業服務平臺

三大主流存儲系統應對大數據問題

自20世紀的CD、磁盤以及磁帶,直至現在備受歡迎的固態硬盤和云存儲,存儲的載體在不斷的變化和發展。時下,數據量在以“野草”一般的速度生長,視頻、音頻、微博等非結構化數據占據的比例越來越大,存儲不斷面臨新的挑戰。大數據時代的來臨,IT基礎架構受到前所未有的挑戰,存儲更是沖當其沖。大數據和存儲之間有什么樣的聯系?對存儲帶來了哪些挑戰?帶著這些問題,記者采訪了ESG中國區總經理王叢。

大數據的不同問題需不同的存儲系統應對自20世紀的CD、磁盤以及磁帶,直至現在備受歡迎的固態硬盤和云存儲,存儲的載體在不斷的變化和發展。時下,數據量在以“野草”一般的速度生長,視頻、音頻、微博等非結構化數據占據的比例越來越大,存儲不斷面臨新的挑戰。

王叢提到,其實大數據的問題不僅僅和存儲相關,還和存儲之外的很多技術相關。目前而言,主要面臨三類典型的大數據問題,第一,OLTP(聯機事務處理系統) 里的數據表格子集太大,計算需要的時間長,處理能力低;第二,OLAP(聯機分析處理)系統里的處理分析數據的過程中,在子集之上抽取形式用列的去抽取數據,時間太長,分析不出來,不能做比對分析;第三,典型的非結構化數據,每一個數據塊的都比較大,帶來了存儲容量、存儲帶寬、I/O瓶頸的一系列問題,象網游、廣電的數據存儲在自己的數據中心里,資源耗費很大,交付周期太長,效率低下。

OLTP也被稱為實時系統,最大的優點就是可以即時地處理輸入的數據,及時地回答。這在一定程度上對存儲系統的要求很高,需要一級主存儲,具備高性能、安全性高、良好的穩定性和可擴展性,對于資源能夠實現彈性配置?,F在比較流行的是基于控制器的網格架構,網格概念使得架構得以橫向擴展(Scale out),解決了傳統存儲架構的性能熱點和瓶頸問題,并使存儲可靠性,管理性,自動化調優達到了一個新的水平。像IBM的XIV、EMC的VMAX、惠普的3PAR系列、戴爾的EqualLogic都是這一類產品的典型代表。

OLAP是數據倉庫系統的主要應用,也是商業智能(Business Intelligent)的靈魂。聯機分析處理的主要特點,可以是直接仿照用戶的多角度思考模式,預先為用戶組建多維的數據模型,展現在用戶面前的是一幅幅多維視圖,也可以對海量數據進行比對和多維度分析,處理數據量非常大,很多是歷史型數據,對跨平臺能力要求高。王叢提到,OLAP的發展趨勢從傳統的批量分析,到近線(近實時)分析,在向實時分析發展。目前,解決BI挑戰策略主要分為兩類:(1)通過列結構數據庫,解決表結構數據庫帶來的OLAP性能問題,典型的產品如EMC的Greenplum,IBM 的Netezza;(2)通過開源,解決云計算和人機交互環境大數據分析問題,如VMware Ceta, Hadoop等。從存儲角度,OLAP通常處理結構化,非結構化,和半結構化數據。這類分析適用于大容量,大吞吐量的存儲(如統一存儲)。此外,商業智能分析在歐美市場是“云計算”含金量最高的云服務形式之一。對歐美零售業來說,圣誕節前后8周銷售額可占一年銷售額的30%以上。如何通過云計算大數據分析,在無需長期持有IT資源前提下,從工資收入,采購習慣,家庭人員構成等BI分析,判斷優質客戶可接受的價位,和服務水平,提高零售高峰期資金鏈,物流鏈周轉效率,最大化銷售額和利潤,就是一個最典型的大數據分析云服務例子。

作為富媒體應用來說,數據壓力集中在生產和制造的兩頭,比如做網游,需要一個人做背景,一個人做配音、一個人做動作,渲染等等,最后需要一個人把它們全部整合起來。在數據處理過程中,一般情況下一個文件大家同時去讀取,對文件并行處理能力要求高。通常需要能支撐大塊文件在網上傳輸。針對這類的問題,集群NAS是存儲首選,在集群NAS中,最小的單位個體是文件,通過文件系統的調度算法,其可以將整個應用隔離成較小且并行的獨立任務,并將文件數據分配到各個集群節點上。集群NAS和Hadoop分布文件系統的結合,這種方式對于大型的應用具有很高的實用價值。典型的例子時Isilon OS和Hadoop 分布文件系統集成,常被應用于大型的數據庫查詢搜索、密集型的計算、生命科學、能源勘探以及動畫制作等領域。常見的集群NAS產品有EMC的 Isilon、HP的Ibrix系列、IBM的SoNAS、NetApp的OntapGX等。

存儲技術變得更加重要

非結構數據的增長非常迅速,除了新增的數據量,還要考慮數據的保護。來來回回的備份,數據就增長了好幾倍,數據容量的增長給企業帶來了很大的壓力。如何提高存儲空間的使用效率和如何降低需要存儲的數據量也成為企業絞盡腦汁要考慮的問題。

王叢表示,應對存儲容量有一些優化的技術,象重復數據刪除(適用于結構化數據)、自動精簡配置和分層存儲等技術,都是提高存儲效率最重要、最有效的技術手段。如果沒有虛擬化、存儲利用率只有20-30%,通過使用這些技術,利用率提高了80%,可利用容量增加一倍不止。結合重復刪除技術,備份數據量和帶寬資源需求可以減少90%以上。

此外,云存儲的方式在歐美市場上的應用很廣泛,大數據用云的形式去交付有兩個典型,面對好萊塢的電影制作商,這些資源是黃金數據,如果不想放在自己數據中心里,把它們歸檔在云上,到時再進行調用。此外,越來越多的企業將云存儲作為資源補充,提高持有IT資源利用率。

最后,王叢強調到,無論是大數據還是小數據,企業最關心的是處理能力,如何更好的支撐IT應用的性能。所以企業做大數據時,要把大數據問題進行分類,究竟是哪一類的問題,和企業的應用做一個銜接和劃分。企業不要被誤導了,就象云計算,價值很大,但在中國被誤導了,廠商也受害,用戶也受害。

未經允許不得轉載:存儲在線-存儲專業媒體 » 三大主流存儲系統應對大數據問題
精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走