存儲必須整合

大數據存儲是一類單獨的產品嗎?賽迪顧問高級分析師陳靚并不這么認為:“把大數據軟件與存儲進行整合,就稱為大數據存儲,未免有些牽強。如果非要說出大數據存儲的特征,那么我認為它至少應該能讓大數據的‘4V’發揮出應有的效果,滿足大數據對性能和擴展性的要求。”

“與其說大數據存儲是一類產品,不如說它是下一代的存儲架構。這種架構可以將傳統的DAS、SAN和NAS有效地整合起來,以滿足上層計算平臺的要求。”Forrester Research首席咨詢分析師戴昆表示,“大數據存儲本身的性能與傳統企業級存儲并沒有顯著差異,它主要依賴于上層計算平臺的分布式并行處理能力,但其擴展性一定要強。”

“在中國市場上,大數據應用還沒有真正落地,許多用戶談的還是BI(商業智能)。而從國外的實踐看,BI只是大數據的一部分,屬于大數據的起步階段,真正的大數據應用是近實時或實時的數據分析。”中橋調研咨詢首席分析師王叢告訴記者,“計算、存儲、網絡等都與大數據的價值有關。大數據存儲并不是一類單獨的產品,它也可以通過類似公有云或私有云的方式提供給用戶。應用和數據量的增加,對數據的存取提出了更高要求。因此,并行存儲能力的增強對大數據存儲來說非常重要。”

EMC Isilon存儲事業部總經理楊蘭江表示,大數據存儲有很多實現方式,不過它應具備以下特性:海量數據存儲能力、全局命名空間、支持標準接口、讀寫性能優異、易于管理維護、基于開放架構、多級數據冗余、多級存儲備份等。

“存儲產品并不像網絡產品那樣有嚴格的界線,因此很難將大數據存儲單獨劃分出來。其實,大數據存儲并不是只有分布式存儲這一種方式,傳統的存儲也可以成為大數據存儲解決方案的一部分。”華為存儲產品線市場總監經寧解釋說,“華為將大數據存儲當成相對獨立的一類產品,主要是從產品的主定位角度考慮的。華為有針對企業級應用的高端存儲,也有針對中小型用戶的通用存儲,當然還有專門為大數據優化的分布式、可橫向擴展的大數據存儲。”

目前,業內并沒有關于大數據存儲產品的通用定義,但是綜合考慮廠商的產品以及用戶的需求,可以簡單概括出大數據存儲的特征:首先,大數據存儲必須能夠支持全類型數據,包括結構化、半結構化和非結構化數據,實現統一數據支持;其次,在保證可靠性的基礎之上,大數據存儲必須具備線性擴展能力,同時還要具有很強的批處理和實時處理能力;最后,在系統達到一定規模后,大數據存儲平臺的易用性和可管理性也是不可或缺的。

在大數據處理過程中,用戶發現性能的瓶頸并不在計算層面,而在于海量數據的上傳和下載。因此,極高的數據加載速率是大數據存儲必須具備的特性。大數據解決方案通常包含數據存儲、計算及分析,存儲是大數據基礎架構中的一部分。

凸顯高性能、可擴展

對中國用戶來說,大數據應用落地的關鍵是如何更好地讓企業的IT決策者和架構師理解業務需求,建立適合企業業務特點的數據應用場景和數據管理架構,更好地利用企業現有的數據資產,而非盲目地進行所謂的大數據投資。“用戶首先要考慮的是什么樣的大數據應用才能為企業帶來合理產出,其次再考慮大數據平臺和存儲,切勿本末倒置。”戴昆表示。

賽迪顧問的研究發現,中國使用大數據存儲比較多的行業是電信、互聯網、金融等,其他行業大多還在觀望及測試中。中國用戶對于大數據存儲的需求首先是可靠和穩定,金融行業的用戶非常重視這一點;互聯網用戶則要求大數據存儲具有很高的I/O吞吐能力;電信行業的客戶更青睞高性價比的大數據存儲設備。

中國惠普有限公司企業集團存儲產品部存儲架構師張楠表示,很多中國用戶會追求大容量和高性能,忽略了大數據存儲本身應該具有的其他屬性,這讓用戶在實際應用中很容易遇到一些障礙,比如無法將存儲與大數據平臺進行對接,無法在業務中充分發揮大數據存儲的價值等。究其原因,主要障礙在于有些大數據存儲產品沒有開放的接口協議, 沒有針對用戶的大數據應用場景進行特別優化, 沒有提供用戶容易接受的易用管理方式等。

存儲的高可擴展性、高可用性和并行處理能力是企業評估大數據存儲最重要的三個因素。高可擴展性可以確保企業的IT能夠隨著數據量的增長和性能需求的提高進行擴展;高可用性能夠保證大數據分析過程的平穩和無間斷運行;高并行處理能力則能夠確保在大數據處理過程中同時進行更多數據的處理,高效地完成數據分析,同時縮短產品或技術的上市周期。低延遲、自動分層存儲以及對10GbE網絡的支持等也是用戶評估大數據存儲的重要考核因素。

“如何管理好大數據真的是一個大問題。從IT的角度看,我們還缺乏能夠展現數據價值的行之有效的手段。數據作為一種資產,如何被長期、高效、經濟地保存也是一個問題。”華為海量存儲產品線總經理袁遠表示,“大數據提出了一個新的方法論——以數據為中心,而不是以應用為中心。以數據為中心,就要考慮數據的來源,如何以更低的成本存儲和管理數據,誰有權利獲得哪些數據,對數據進行分析前必須進行模型化的抽象等。大數據需要新的工具、新的管理思路和方法,同時還要對技術架構進行創新。”

歐洲核子研究中心(CERN)創建的OpenLAB旨在通過部署全球領先的IT系統和解決方案,將全球大型強子對撞機(LHC)行業的資源、研究成果匯集在一起。持續快速增長的海量科研數據對CERN的存儲系統在可擴展性、可靠性等方面提出了嚴峻挑戰,這也促使CERN開始評估新的存儲技術。最終,CERN選擇了華為UDS云存儲系統,并在三個月內完成了安裝調測和基準性能的評估。測試結果顯示,UDS創新的軟硬件和系統非常適合海量數據存儲的業務要求,這讓CERN可以在未來輕松應對EB級數據量的挑戰。

談到華為大數據存儲解決方案的特色,經寧概括說:“我們能更好地把握大數據的本質需求,并依靠自主研發能力,在IT架構上實現創新,將計算與存儲進行有機結合。我們還基于自己的大數據存儲平臺,提供了多種類型的接口,便于與應用銜接。”從產品研發的角度看,華為將重點放在了軟件方面,硬件則采用了開放的標準化的存儲服務器架構。在2013年華為云計算大會上,華為與中央電視臺正式簽署合作協議,在大數據存儲領域建立戰略合作關系,為媒資行業提供領先的技術和應用模式。雙方計劃聯合開發自適應、深度節能的高密度、大容量的媒資存儲系統。

面對大數據的需求,存儲永遠不變的是對數據可靠性、性能、可擴展性和效率的追求,而有可能發生改變的是為了提高效率、節省消耗,存儲可以變得更加靈活,也可以考慮與計算進行融合等。不管存儲如何變化,用戶對高性價比的需求始終不變。

數據收集和存儲是大數據分析的第一個環節。在大數據時代,應用數量、數據量和使用者數量的增長,對存儲IOPS以及OLTP和OLAP的要求越來越高,具體表現在現有的存儲已不能滿足業務關鍵型應用的需求。中橋調研咨詢針對中國用戶的調研數據顯示,FC SAN仍是企業級用戶(42.1%)和中型企業(34.0%)的首選,遠高于其他存儲類型的占比。這是因為FC SAN對OLTP和OLAP的性能穩定性優于其他存儲技術。這一調查結果也顯示,目前中國用戶大多處于大數據分析的第一階段,其工作以存儲和IT架構的整合和優化為主。王叢分析說,隨著Hadoop和MapReduce的不斷普及,中國用戶將逐步進入近實時和實時分析階段,節點式存儲的占比會隨之增加。

打通行業價值鏈

華為的金字塔型“4V”理論具體來說,第一步,要建立一個高效的存儲架構平臺,它既能處理大量的小文件,也能處理單體較大的文件。第二步,這個存儲平臺要具備極高的處理性能。第三步,這個存儲平臺要能處理多樣化的數據,包括結構化和非結構化數據。只有通過前面三步打下的基礎,企業用戶才能進入最后一步,在一個高效的專門為大數據構建和優化的平臺上進行數據分析和挖掘,并最終獲得所需的價值。

經寧表示:“如果仔細甄別,大數據與海量數據還是有差別的,畢竟大數據不僅僅是指數據量大,還包括處理、分析和挖掘等過程。從表面上看,大數據的‘4V’特征是并列的關系,但實際上這些因素之間還是有層次性的。我們提出的大數據金字塔模型,可以更好展現大數據價值的實現過程。”

華為倡導構建高效的大數據存儲平臺,而其中的高效又是如何來衡量的呢?高效的第一個衡量指標就是性能。性能是大數據存儲平臺的基石之一,沒有性能的保證,大數據系統無異于空中樓閣。其次,大數據強調的是簡化使用,提高效率。最后,高效的大數據存儲平臺應該采用融合的技術架構。以華為OceanStor 9000大數據存儲系統為例,它采用華為首創的全融合創新架構,可以實現存儲、分析和歸檔的融合,同時具有很強的橫向擴展能力,最大可擴展至288節點,單一文件系統可支持40PB容量。分析功能是指OceanStor 9000中內置了分布式數據庫,能完成數據的快速檢索和查詢,以支持上層應用。

華為一直堅持“被集成”的策略,這在大數據領域同樣適用。華為的大數據存儲平臺可以提供開放的接口,方便與BI軟件和應用軟件連接,進一步提高查詢效率。在OceanStor 9000這樣的融合平臺之上,用戶還可以根據業務的情況靈活添加相關的功能模塊。“在大數據方面,我們主要從垂直行業切入,與行業ISV緊密合作,為金融、電信運營商、媒體、智慧城市、石油勘探等領域的用戶提供端到端的大數據存儲解決方案。”經寧說,“雖然我們已在大數據存儲市場上取得了豐碩的成果,但是我們更看好大數據存儲市場未來的潛力,因為其增長速度遠高于傳統存儲市場。”

更好的兼容 更經濟的交付

中橋調研咨詢的調查結果顯示,未來24個月內,64.8%的用戶將部署新存儲來滿足大數據時代業務關鍵型應用對存儲性能越來越高的需求。王叢表示:“針對大數據應用,存儲可以選擇的余地較大,基于一些開源架構的基礎平臺也能滿足大數據的需求。未來,大數據主要處理的是非結構化數據,如何將數據快速轉變為價值是關鍵。大數據不是一個產品,而是解決方案,只有將解決方案與應用相結合才可能更好地挖掘數據的商業價值。”

綜合多位分析師的觀點,在大數據存儲領域,國外廠商仍處于領跑地位,國內廠商如華為也在大數據存儲領域保持了高速增長。各廠商在大數據存儲方面各具所長,誰能建立更好的客戶關系和生態系統,使大數據存儲解決方案與企業現有的技術架構兼容,并能實現更經濟的交付,誰就能在大數據存儲市場上脫穎而出。

尋求容量、可靠性和速度的平衡

用戶說

對非結構化數據進行存儲,除了考慮易用性、性能和安全因素以外,還要考慮與智能挖掘相關技術相結合。

大數據要求用戶不僅要對傳統商業智能軟件進行改造,還要對企業已有的業務系統基礎架構進行改造。

大數據面臨的最大挑戰是大規模、實時的關聯性分析。對于存儲來說,高吞吐、低延遲的要求會越來越高,內存、閃存的重要性也會越來越高。

中國的大數據應用已經起步。記者采訪了金融、互聯網、教育、制造等行業的一些敢于“吃螃蟹”的用戶。

精準營銷效果佳

大數據最先從互聯網行業興起,互聯網企業在大數據應用方面的一些成功經驗值得其他行業借鑒。以攜程旅行網(CTRIP)為例,它的大數據應用目前正處于快速發展階段,已經在很多方面進行了有益嘗試,包括細化網站平臺的流程,優化業務運營,支持業務成長的決策,解決部分傳統方法難以解決的具體問題。攜程旅行網高級副總裁、研發中心總經理葉亞明(Eric Ye)給記者舉了兩個例子:在飯店推薦和航班查詢方面,攜程就利用其數據精細化工具來計算業務的投資回報率(ROI);攜程還通過機器學習的方法識別用戶,進一步改善針對用戶的推薦結果,解決“查詢不到匹配酒店”等難題。

利用大數據為企業決策提供支持或者實現精準營銷是企業中常見的大數據應用。東方航空公司就是一例,它開展大數據研究和應用已經有很長時間,并且采購了大數據一體機專門解決大數據的相關問題。目前,東方航空公司的大數據應用主要集中在營銷業務領域,包括渠道分析、航線分析、航班后期走勢分析、航線上客速度分析等。在東方航空公司,大數據處理和分析的益處顯而易見,它能提供更準確、更實用、更全面的數據分析和展現,形成統一的營銷數據分析門戶,更好地為東方航空公司營銷的各個環節提供決策支持,使精準營銷成為可能。

中國傳媒大學高性能計算中心主任魯永泉博士和他的團隊近年來一直致力于打造中國首個動漫產業的云平臺,并且已經發布了VSO虛擬工作室平臺。此平臺集虛擬工作室、動漫渲染、在線交易等眾多功能于一身,是真正能夠落地的動漫云平臺。據魯永泉介紹,他們已經將大數據用于動漫云平臺,平臺的主要功能是對動漫云的用戶行為進行分析,為運營人員制定更加精確的營銷和服務策略提供支持。

追求高性價比

為滿足大數據的應用需求,存儲平臺究竟應該如何搭建呢?不同行業的用戶針對不同應用會進行不同的搭配。攜程已經建立了一個具有一定規模的Hadoop集群,其大數據應用就基于此集群。“為這個集群選擇相應的存儲方案時,我們綜合考慮了I/O吞吐性能、性價比、計算密集型還是存儲密集應用型等諸多因素。”葉亞明介紹說,“目前,我們標準的存儲配置是基于SATA硬盤,配合JBOD、數據傾斜調整、機架感知等可靠技術的應用,實現存儲和計算的優化。面對一些特殊應用,我們還會采用不同的內存存儲,如HBase節點中的內存比例會稍高,而Hive/PIG等節點中的內存比例則有所調整。”

東方航空公司對于大數據存儲的要求很明確,不僅要性能卓越,可擴展性強,還要實現安全保護,能夠實時響應,實現負載均衡等。東方航空公司下一步將考慮引入對非結構化數據的處理。針對非結構化數據的存儲,東方航空公司除了會考慮易用性、性能和安全性等因素以外,對于與智能挖掘相關的技術也十分關注。東方航空公司選擇大數據解決方案秉承的原則是:業務驅動,信息技術引領,追求更高性價比。

目前,南華期貨股份有限公司在大數據方面的應用還不夠深入,但數據的采集和積累是其一直堅持在做的重要工作。南華期貨積累的數據主要包括兩年以上的全市場逐筆Tick行情數據、近10年的主力合約分鐘數據、全部客戶的交易和結算數據、詳細的網絡訪問日志等。“我們的大數據應用主要集中在針對高端客戶的數據服務和有針對性的交易指導方面。接下來,我們還會依托實時交易數據分析,向客戶推送有針對性的咨詢服務等。”南華期貨股份有限公司總經理助理顧松表示。

談到大數據對存儲的需求,顧松表示,核心需求主要體現在容量、可靠性和速度三方面。針對不同的應用,上述三個需求重要性的排序也會有所變化:比如在逐筆Tick行情數據處理中,重要性的排序是可靠性、容量、速度;在網絡訪問日志中,重要性的排序為容量、速度、可靠性。顧松特意強調了存儲可擴展的重要性:“當前,我們為每個應用都估算了具有一定冗余的存儲容量,所以可擴展性的重要性并沒有凸顯出來。不過隨著應用的發展和后續數據遷移、備份需求的增加,存儲的可擴展性和重復數據刪除等技術就會顯得更加重要和必要。”

長安汽車股份有限公司副總裁馬軍最想找的是懂算法的人,希望依靠更先進的算法實現數據的自動抽取,從而提升數據采集和分析的效率。他認為,公司現有的存儲平臺不會成為瓶頸。

魯永泉也表示,其動漫云平臺對存儲沒有特別的要求:“大數據意味著大存儲,而能夠滿足大數據需求的存儲,比如HDFS等的設計理念不再強調單個存儲的可靠性,而是強調利用建立副本等軟件的方式來確保數據的安全。至于性能方面,大型分布式系統的單個存儲節點的性能高一點固然很好,但其實對整體性能的影響不大,反而需要在網絡優化方面多下些功夫。”

容量、性能同步擴

華為跨界到IT領域,其重要的資本就是在網絡領域多年積累的自主研發能力和過硬的產品品質,而華為最擅長的無阻塞交換網絡技術也讓華為在服務器、存儲和大數據解決方案的開發中顯得游刃有余且特色鮮明。華為OceanStor 9000大數據存儲系統在標準性能評估機構SPEC的SPECsfs2008基準測試中再次刷新記錄,其性能領先友商產品3倍多。參與測試的華為OceanStor 9000的配置為100個節點,在NFS網絡共享協議環境下的性能達到5030264 IOPS,位居業界第一。同時,OceanStor 9000的橫向擴展架構保證了系統的線性擴展能力,在不中斷業務的情況下,每增加一個新節點,容量和性能即可線性增長。

“大數據最顯著的特征是在海量數據中快速地把數據變成信息。因此,數據的快速讀取和安全保存是大數據存儲的關鍵指標。”國家測繪局衛星測繪應用中心副主任孫承志表示,“衛星測繪技術不斷發展和多類型測繪衛星的在軌運行,使得數據存儲量快速增加。為了更有效地解決大數據存儲問題,我們希望未來與華為開展更多的合作。”

華為OceanStor 9000大數據存儲系統已經在能源勘探、衛星測繪、金融票據影像歸檔、智慧城市視頻監控存儲分析等行業的重要業務場景下得到驗證和應用,受到了客戶的廣泛好評。華為在大數據方面的一個重要客戶中國石油研究院總工程師賴能和說:“為了提高大數據處理性能,中國石油研究院采用了高性能的并行存儲以及并行文件系統,可以將性能提高近50%,另外通過增加內存和使用萬兆級的網絡,也可以提升大數據處理性能。”

大數據考驗整合能力

系統集成商說

大數據在帶來新的商機和用戶的同時,也帶來了諸多挑戰。

大數據存儲主要考驗的是技術整合能力和資源整合能力。

大數據是一項持久的工程,也是一個不斷迭代的過程,不能一蹴而就。

業務集中在云計算、大數據和業務連續性方面的柏科數據總經理林柏喬給記者舉了一個例子,某客戶需要做大量的日志分析,每天可以產生40TB的新數據,因此每天需要增加一至兩臺存儲。越來越多的客戶需要用大數據工具去分析其業務,以投入更加精準的資源去開發更具針對性的功能和新的應用。

“美國20%的企業已經不同程度地使用大數據工具來提高投資回報率。中國的500強公司也開始積極關注并制定自己的大數據計劃。不久的將來,大數據應用在中國會越來越多。”林柏喬表示。

存儲架構不變不行

隨著大數據時代的到來,用戶對存儲最迫切的需求就是更好的擴展性。存儲系統的擴展一定要簡便,可以通過增加模塊或磁盤柜來增加容量,而且在升級過程中最好不要停機。隨著數據量的持續增長和數據來源的多樣化,傳統的存儲系統已經無法滿足大數據應用的需要。存儲廠商已經意識到這一點,并開始修改基于塊和文件的存儲系統的架構,以適應新的要求。

北京榮之聯科技股份有限公司基礎架構部經理李明壯認為,大數據存儲應該具備出色的擴展能力、可管理性、高可用、高性能和分布式架構等五大基本特征。“為降低成本,企業必須采用一個能夠長期發展的數據存儲平臺,不僅需要購買行業標準的服務器和存儲產品,同時還要保證產品的擴展能力和性能。存儲系統需要持續滿足企業需求,并可通過靈活的擴展來保證數據處理對高性能的需求。”李明壯解釋說,“傳統的網絡存儲系統采用集中式的存儲服務器來存放數據,存儲服務器存在性能瓶頸,不能滿足大數據存儲的需要。而分布式存儲系統采用可擴展的系統架構,能夠利用多臺存儲服務器實現數據的負載均衡訪問,提高了系統可靠性、可用性和存取效率,且易于擴展。”

“面對大數據,很多用戶希望能充分利用原有的存儲。因此,存儲整合是一個不小的障礙。”李明壯表示,“我們要為客戶考慮,如何更好地節約成本,使傳統存儲能夠在新的大數據平臺中發揮最大效用。”

華勝天成集團市場總監唐北雁認為,用戶除了要面對大數據的去冗降噪技術、高效率低成本的大數據存儲、大數據的融合等技術方面的挑戰以外,在大數據的落地模式、實時數據分析與實時業務響應方面也面臨諸多難題。

先里后外效率高

林柏喬認為,大數據存儲技術會發生顛覆性的改變,如果一個廠家只關注基于控制器的存儲,那么其在大數據方面很難有用武之地。無論在美國還是中國,真正使用大數據的客戶沒有采用傳統磁盤陣列的。“一個大數據解決方案如果想吸引用戶,就應該提供比Hadoop的HDFS更加高效的文件系統。”林柏喬認為,“用戶需要的是一個高效的綜合了計算、網絡和存儲的解決方案,而不是單純的存儲。”

大數據應用的前提是必須有明確的業務需求。換句話說,就是用商業思維來推動大數據,只有這樣,大數據的價值才能得到充分展現。

唐北雁建議用戶可從以下幾方面入手開展大數據應用。

第一,做好企業非結構化數據的“數字化”,將處于半休眠和休眠狀態的非結構化數據激活,進行統一管控。

第二,先做好企業內部數據的整合,將通過企業IT規劃、主數據管理、業務系統和其他渠道收集來的數據進行整合和標準化,然后再利用大數據分析技術解讀這些數據,為企業提供有價值的數據分析。

第三,建立合理的長期規劃。當內部的數據得到充分應用以后,企業的目光就會轉移到外部數據,特別是那些從移動互聯網、社交商務、微博和微信中獲得的數據。這些數據中也存在著大量的數據財富。

據北京榮之聯科技股份有限公司產品預研部產品經理甘國華的觀察,中國用戶更傾向于選擇開放式的存儲來搭建大數據平臺。開放式的存儲采用分布式存儲架構,數據分散在各存儲節點上。“作為集成商,我們能夠為用戶提供分布式存儲,并在此基礎上提供包括檢索、分析和可視化工具在內的一整套大數據解決方案。”甘國華表示。

大數據需要的是一個高效的存儲平臺。華為認為,構建這一平臺的基礎是全融合技術架構,它融合了存儲、分析和歸檔功能,可以實現數據全生命周期的管理,提高大數據的應用效率。

產品、規化都重要

大數據既給系統集成商帶來了挑戰,也創造了新的商機。唐北雁表示:“大數據給我們帶來的挑戰主要是如何進行數據的收集和存儲。在存儲方面,用戶應該通過云存儲和分布式文件存儲等技術實現對大數據基礎構架的支撐,同時使用NoSQL數據庫來實現數據的存儲和管理。”

李明壯表示:“在大數據平臺建設中,我們不單純為用戶提供產品,更要幫助用戶制定一個適應大數據需求的長久的數據中心規劃。這個規劃涉及我們以前不熟悉的軟件方面的知識,比如數據分析、數據挖掘等。對于新興的應用領域,我們需要從零開始了解這些行業用戶的需求,為其提供更好的方案。”

未經允許不得轉載:存儲在線-存儲專業媒體 » 中國計算機報封面報道:澄清大數據存儲
分享到

zhupb

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走