數據存儲產業服務平臺

Platform MapReduce照亮“大數據”時代

在日趨激烈的市場競爭環境中,企業越來越依賴于從對數據的分析中揭示未來發展的方向。在傳統的企業應用中,結構化數據是最為普遍的數據類型。然而,隨著社交媒體、移動計算等新技術的演進,企業不得不面對文本、圖像、電子郵件、音視頻、網上交易數據等海量新型數據。與傳統的結構化數據不同,這些數據都是非結構化的。

如今,非結構化數據的爆炸性增長,正在深刻影響著整個數據存儲和分析領域。為了滿足新興的業務需求,企業開始逐漸摒棄傳統的數據處理方式,轉而嘗試新的模式對包括非結構化數據在內的各種類型數據進行訪問、處理和分析–這便是"大數據"問題。

MapReduce:下一代數據處理編程模式

"大數據"的問題,正促使企業中傳統的存儲和計算解決方案開始邁向變革之路。從現狀來看,當前存儲模型大多數能夠支持企業級需求。因此,"大數據"的焦點問題開始轉向新型編程框架領域。而在這一領域,MapReduce無疑是最受關注的新一代技術。它提供了在計算集群下分布處理大數據的軟件框架,利用MapReduce編程框架,開發人員可以開發出跨處理器分布式集群或獨立計算機的、能夠并行處理海量非結構化數據的程序。從目前來看,市場上主要有三種方式能夠實現對海量數據的MapReduce操作。

1.開源Apache Hadoop項目。當前,新型編程框架領域被寄予厚望的一項技術是開源Apache Hadoop軟件及其相關的MapReduce編程模型。Apache Hadoop是支持數據密集型分布式應用的軟件框架,采用免費許可證方式,能夠讓應用能夠使用Hadoop分布式文件系統內的數千個節點和數PB數據。然而,開源Hadoop MapReduce解決方案并非盡善盡美,由于其計算部分(即數據的抽取、處理和分析歸納)最初只是為了滿足基本的功能需求而非企業級的實施進行設計的,因此發展到現在已經無法更好地滿足企業級的需求。面對日益苛刻的業務需求,Hadoop MapReduce目前面臨五大挑戰。

第一,缺乏高性能和擴展性?,F有的Hadoop MapReduce編程模型實現并不提供快速、可擴展的分布式資源基礎架構解決方案;第二,缺乏靈活的資源管理?,F有的Hadoop MapReduce編程模型實現無法迅速響應來自應用程序及/或用戶的需求變化;第三;缺少應用部署支持?,F有的Hadoop MapReduce編程模型實現并沒有使用自動化應用服務部署功能,因此無法簡化管理生產型分布式系統上的多應用集成;第四,無法保證服務質量?,F有的Hadoop MapReduce編程模型實現并沒有經過優化,無法充分利用這個優點:通過提高多核服務器的利用率,加快運行速度、降低成本;第五,缺少多數據源支持?,F有的Hadoop MapReduce編程模型實現只支持一種分布式文件系統,通常是HDFS。而一個完整的MapReduce編程模型實現應該足夠靈活,能同時支持多種分布式文件系統的數據存取。

2.商用開源解決方案。Cloudera是一家新興公司,提供自己的Hadoop軟件發行版,采用與其他開源軟件公司(如紅帽)同樣的商業模式。它既提供軟件服務,又對整個開源軟件做貢獻–從終端用戶應用程序、MapReduce處理到Hadoop文件系統。然而,其解決方案需要處理流程與文件系統緊密集成,這迫使客戶被其數據存儲方法牢牢鎖定。此外,它仍是一款未經驗證的大規模企業軟件解決方案–包括負載管理功能、高度依賴開源社區、服務質量和性能無法得到保障。

3.數據倉庫分析。一些數據倉庫廠商在自己的數據倉庫上實施了MapReduce編程模型,包括EMC/Greenplum和Aster Data等公司。雖然MapReduce與數據倉庫緊密集成對客戶來說是個誘人、可靠的解決方案,但是該解決方案只與各廠商自己的數據倉庫協同運行,而且不支持其他非結構化的數據系統,如HDFS、Appistry以及其他許多數據系統。

企業級MapReduce分布式運行引擎

由于普遍缺乏擴展或管理大型分布式環境和工作負載并且保持服務水平或避免廠商鎖定的能力,眾多開源MapReduce解決方案難以滿足企業的需求。因此,很多企業機構并不愿意為企業應用程序部署開源的分布式運行引擎。然而,面對不斷激增的數據,如果企業希望通過MapReduce編程框架對那些龐大的異構數據集執行分布式計算的話,就勢必需要一種具有高擴展性、高可用性又易于管理的企業級解決方案。

為了滿足將MapReduce應用遷移至生產環境的挑戰,全球領先的集群、網格、云中間件和云管理平臺提供商–Platform公司已經將其企業級的工作負載管理功能引入到"大數據"領域。Platform公司在工作負載管理和分布式計算環境領域的專長,如同專為MapReduce編程模式和擴展支持大型數據而量身定制。

Platform公司最新交付的業界首款針對MapReduce應用程序的企業級分布式運行引擎–Platform MapReduce,是基于該公司近二十年來在分布式架構管理領域積累的豐富經驗以及Platform Symphony核心技術而構建的,能夠幫助組織機構克服將應用程序轉移至生產環境的一切障礙,非常適用于跨分布式文件系統的企業級運行服務。

與市場上開源和商用MapReduce分布式工作負載引擎不同,Platform MapReduce提供了企業級的MapReduce應用程序分布式運行引擎,可以實現對跨整個分布式文件系統的集群中的MapReduce應用程序進行調度和管理。它提供了企業級的可管理性和可伸縮性、高資源利用率和可用性、操作便利性、多應用支持以及一個開放分布式系統架構,其中還包括了對于Hadoop分布式文件系統(HDFS)和Appistry Cloud IQ的支持,這將確保企業更加關注將MapReduce應用程序轉移至生產環境中。Platform MapReduce提供的關鍵價值包括:

企業級可管理性和伸縮性–包括策略驅動的工作負載調度、調整、監測和自動管理功能;擴展多達20000臺服務器、40000個處理器,支持10000個并發作業和30000個并發任務,這超過了其他所有MapReduce分布式運行引擎。

高資源利用率和共享功能–包括策略驅動的工作負載調度,使組織機構能夠少付出、多受益。它還提供了多達10000個優先級別以確保高資源利用,使更多應用程序能夠訪問共享數據。

高可靠性–保證分布式運行引擎內部的正常運行時間。通過為Map任務、Reduce任務和節點名稱(Name node)提供自動的故障轉移功能,有效避免了單點故障的出現,而這些功能是其他替代解決方案無法具備的。

易管理性–支持不同版本的應用在同一個集群運行,IT部門無需針對各種版本重新配置或升級資源。

多應用支持–在一個共享集群上運行多個MapReduce應用,支持不同版本的應用在同一個集群運行。

開放分布式文件系統架構–支持包括Hadoop分布式文件系統(HDFS)和Appistry Cloud IQ等多個文件系統,稍后還將支持更多的文件系統和平臺。

目前,Platform公司提供的MapReduce企業級解決方案目前已經在多個關鍵的市場廣泛采用,用戶廣泛涉及金融服務、電信、政府機構、生命科學和零售等領域。Platform MapReduce已經成為企業面對"大數據"挑戰最值得信賴的基石。

未經允許不得轉載:存儲在線-存儲專業媒體 » Platform MapReduce照亮“大數據”時代
精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走