 

當前位置：存儲在線-存儲專業媒體  新聞  正文

向Hadoop看齊 RainStor加快數據分析

2012-02-17 分類：新聞

DOSTOR存儲在線 2月17日國際報道：重復數據刪除數據庫供應商RainStor打算讓其分析引擎和企業數據庫向Hadoop看齊，而不是讓Hadoop的數據向其引擎看齊。

Hadoop正逐漸成為存儲海量數據的標準，但大多數商業智能分析軟件比如Greenplum、Netezza和Teradata等推出的相關產品并沒有為Hadoop文件系統即HDFS提供本地支持，因此數據必須被抽取出來，然后再移動到分析引擎。這個過程需要時間，儲存該過程中復制的數據也需要磁盤空間。

RainStor的首席執行官John Bantleman向我們簡要介紹了RainStor對Hadoop的支持功能，他說，現有的商業智能分析軟件對抽取的Hadoop數據的常規操作通常要花好幾個小時的時間，而RainStor的分析引擎支持Hadoop，因此分析數據的速度要快很多，比它說的快10到100倍。在接受這個說法以前，讓我們先來看看RainStor的發展歷程。

RainStor最初起源于一家名為Clearpace的英國公司，當時還是2008年。該公司的NParchive產品可以將甲骨文數據庫或其他的RDBMS中的那些不經常被訪問到的數據進行重復數據刪除處理并歸檔在廉價的SATA磁盤上，重復數據刪除的比率為20:1或者更高。SQL數據庫的常規運行與NParchive無關，因此沒有必要將數據重新釋放。

Bantleman將Clearpace帶到了硅谷，然后將公司和產品的名稱更換為RainStor。第二階段的開發主要是朝著電信領域前進的，主要是想利用它的數據庫來解決每天上百億網絡事件記錄的存儲問題。

用Hadoop MapReduce來查詢某一只股票某一天在紐約股市交易中的平均價格可能需要4個小時的時間，這比利用SQL查詢命令在RainStor本地存儲的Hadoop數據庫中查詢的速度快1800倍。

RainStor的其中一家客戶是日本軟銀集團。它儲存了2PB的原始數據，那些數據經過壓縮和重復數據刪除處理后的容量為135TB，數據被儲存在惠普scale-out NAS磁盤整理存儲設備上。它可以在2到5秒的時間里查出某一位用戶在一天里所做的事情。傳統數據庫/數據倉庫解決方案可能包括了數個PB的數據，平均每TB數據的平均成本為2萬美元，這意味著一個容量為3PB的客戶數據庫需要花費高達6000萬美元的成本。 RainStor/惠普的硬件系統的價格大約為500萬美元。

海量數據

滿足海量數據需求是Hadoop和RainStor的第三個開發階段的目標。它花了一年多的時間將Hadoop支持功能整合到它的產品之中，讓 RainStor在Hadoop上本地運行，對壓縮過和重復數據刪除處理過的Hadoop數據執行MapReduce查詢和SQL查詢命令。公司聲稱，它可以將重復數據刪除和壓縮數據的比率提高到40:1，即實現97.5%的壓縮率。例如，電信行業的數據記錄在內容上存在很高的重復性，這類數據就非常適合進行壓縮和重復數據刪除處理。

RainStor表示：“在HDFS系統上運行的被壓縮過的多結構化數據集可以提供最高的效率，并將群集規模減小50%到80%，這對于降低經營成本來說很重要。”

EMC Isilon與Hadoop以及Greenplum的整合進行得如何了呢?

Bantleman稱：“Greenplum不允許你運行MapReduce，它的內部實際上是一個Postgres數據庫，主要是并列關系的SQL條目。我們是唯一一款能夠在HDFS上運行的數據庫，而且我們還增加了支持MapReduce的功能。”

他補充說：“Greenplum、Teradata、Netezza和Vertica都開發了連接軟件，讓客戶可以將數據從Hadoop中抽取出來再輸入它們自己的數據庫之中。它們不能本地運行Hadoop群集，但我們可以。 RainStor允許客戶直接在Hadoop環境中對數據進行分析處理。”

Bantleman說，他認為傳輸海量數據的做法是非常愚蠢的。

很快，真的很快

RainStor的Hadoop產品可以避免傳輸海量數據，它對Hadoop數據執行查詢的速度比其他解決方案都要快。Bantleman稱，RainStor可以將數據分析的速度提高10到100倍。

他引述了一個極端的例子來說明RainStore分析功能的速度，在紐約證券交易所，分析師有一項任務是計算單只股票的日均交易價格。 2011年11月的時候，每天的交易次數在150萬次左右，每項交易的交易價格都被儲存在一個Hadoop數據庫中。

利用Hadoop MapReduce成批運行花了4個小時的時間才計算完，而利用RainStor MapReduce只用了80分鐘就完成了同樣的工作量。 RainStor MapReduce執行篩選程序花了2分鐘，而RainStor SQL只用了8秒的時間。

Bantleman面無表情地提供了這些數據。顯然，用Hadoop MapReduce要花4個小時來計算某一只股票的日均交易價格，而對RainStor本地儲存的Hadoop數據執行SQL查詢命令的速度要快1800倍。

分區篩選與硬算

Bantleman稱：“我們有分區篩選的功能。大多數數據庫都是用行列數和行索引來給數據定位的。 RainStor篩選功能可以告訴我那些數據不用讀取。查詢可以找出包含元數據的那些分區。但是硬讀式的查詢方案需要把所有的數據都讀取一遍，這要花很多的時間，但是我們就不用花那么多的時間了。”

當RainStor在成批運行中不得不去讀取所有數據的時候，它的速度還是比其他方案快3倍，因為它的數據被壓縮了25倍，而原始的Hadoop數據是沒有經過壓縮的。Bantleman說：“我們可以查詢得更快，因為輸入輸出數據量被大幅減少了。”

RainStor Hadoop產品的其他優勢還包括地理復制，以及能夠設置數據的保留和過期時間。數據可以根據一項計劃被輸入，并且能夠根據計劃的變化做出相應調整，這樣它就可以通過不同的計劃被調閱，而不用每次重新提取。

展望未來，Bantleman相信機對機通信將導致企業和各類組織需要處理的數據量的巨大增長。他還說，如果你需要將海量數據儲存在基于閃存的存儲內存之中，那么他認為海量數據壓縮和重復數據刪除將會具有很高的價值。這可以大幅減少企業和組織需要處理的數據數量。

RainStor Enterprise Big Data Analytics On Hadoop現已上市銷售。

未經允許不得轉載：存儲在線-存儲專業媒體 » 向Hadoop看齊 RainStor加快數據分析

分享到

Hadoop RainStor 大數據存儲管理重復數據刪除

wangzhen

相關推薦

精品国产午夜肉伦伦影院,双性老师灌满浓jing上课h,天天做天天爱夜夜爽,攵女乱h边做边走